Logo ru.artbmxmagazine.com

Кластерный анализ для образовательных аудиторских услуг

Оглавление:

Anonim

Эта статья связана с исследованиями, выполненными в рамках докторской диссертации, касающейся качества аудиторских услуг. Выбор территорий необходим для проведения исследований, выбор которых должен быть не случайным явлением, а результатом процесса, в котором используются статистические инструменты, которые его оправдывают, для них используется метод кластерного анализа, связывающий это. с определенными переменными на основе службы аудита.

Введение в кластерный анализ.

Кластерный анализ, также известный как кластерный анализ, числовая таксономия или распознавание образов, представляет собой многовариантный статистический метод, целью которого является разделение набора целей на группы, так что профили целей в одной группе очень похожи между собой (сплоченность внутренней группы) и цели разных кластеров различны (изоляция внешней группы).

Академики и исследователи рынка часто находят лучшее решение для своих исследований, определяя однородные группы объектов, будь то отдельные лица, фирмы, продукты или даже модели поведения.

Стратегические варианты, основанные на определении групп населения, таких как таргетинг или целевой маркетинг, были бы невозможны без методологической цели. Такая же потребность наблюдается в других областях, начиная от физических наук (например, классификация различных групп животных, таких как насекомые или млекопитающие) до социальных наук (например, анализ различных психиатрических профилей).

Во всех этих примерах аналитик пытается найти естественную структуру посредством наблюдений, основанных на многовариантном профиле. Наиболее часто используемый метод для этой цели - конгломератный анализ (Cluster Analysis, AC, на данный момент).

Это должно быть ясно с самого начала:

  • То, что метод не имеет призвания / логических выводов. Таким образом, результаты, достигнутые для выборки, служат только для этого проекта (его значение касается только целей аналитика): выбор отдельных лиц, используемые соответствующие переменные, используемый критерий сходства, уровень группировки выбранное окончание…. Они определяют разные решения: кластер и дискриминант не имеют много общего: дискриминант пытается объяснить структуру, а кластер пытается ее определить.

Две основные цели:

  • «Таксономический» анализ для исследовательских или подтверждающих целей. Изменение (упрощение) измерения данных (описанное в начале этого документа: группирование отдельных объектов в новые (групповые) учебные структуры)

Что такое кластерный анализ?

AC - это не что иное, как набор методов, используемых для классификации объектов или случаев в относительно однородные группы, называемые конгломератами (кластерами).

Объекты в каждой группе (конгломераты) имеют тенденцию быть похожими друг на друга (высокая внутренняя однородность внутри кластера) и отличаться от объектов других групп (высокая внешняя неоднородность между кластерами) в отношении некоторых заранее определенных критериев выбора.

Таким образом, если классификация прошла успешно, объекты в кластере будут очень близки друг к другу в геометрическом представлении, а различные кластеры будут далеко друг от друга. Этот анализ также известен как классификационный анализ или числовая таксономия.

Целью AC является объединение объектов, имеющих одинаковые характеристики, то есть, таким образом, он становится методикой исследовательского анализа, предназначенной для выявления естественных группировок в рамках сбора данных. Этот анализ не делает никакого различия между зависимыми переменными (DV) и независимыми переменными (VI), но вычисляет взаимозависимые отношения всего набора переменных.

AC используется в маркетинге для различных целей, в том числе:

  • Сегментация рынка

    Например, потребители могут быть сгруппированы, используя преимущества, полученные от покупки продукта в качестве основы. Каждая группа будет состоять из относительно однородных потребителей с точки зрения выгод, которые они ищут. Этот подход известен как сегментация прибыли.Понимание поведения покупателя

    AC может использоваться для выявления однородных групп покупателей. Таким образом, поведение каждой группы можно изучать отдельно. Этот анализ также используется для определения тех стратегий, которые покупатели используют для получения внешней информации.

    Группируя бренды и продукты, можно определить конкурентные наборы на рынке. Бренды в одной группе конкурируют друг с другом больше, чем с другими группами. Компания может проанализировать свои текущие предложения по сравнению с предложениями своих конкурентов, чтобы определить потенциальные возможности для новых продуктов.

    Выбор рынка тестирования Разделив города на однородные группы, можно выбрать сопоставимые города для тестирования различных стратегий. сокращение маркетинговых данных

    AC может использоваться в качестве общего инструмента сокращения данных для разработки подгрупп данных, которыми легче управлять, чем отдельными наблюдениями. Последующий многомерный анализ проводится на основе подгрупп, а не отдельных наблюдений. Например, чтобы описать различия в поведении пользователей, сначала можно сгруппировать потребителей. Различия между кластерами могут быть изучены с использованием множественного дискриминантного анализа.

AC является полезным инструментом для анализа данных в самых разных ситуациях. Например, исследователь, который собирает данные с помощью вопросника, может столкнуться с большим количеством наблюдений, которые не имеют смысла, если они не находятся в управляемых группах.

АЦ может объективно выполнять эту группировку данных, сокращая информацию о всей совокупности или выборку информации о конкретных небольших группах. Например, если мы можем понять отношение населения, идентифицируя самые большие группы в составе населения, то мы можем уменьшить данные для всего населения в большом количестве групп. Таким образом, исследователь достигает большей краткости и более понятного описания наблюдений с минимальной потерей информации.

AC может также использоваться, когда исследователь хочет разработать гипотезы относительно характера данных. Например, исследователь может полагать, что отношение к потреблению безалкогольных безалкогольных напитков по сравнению с обычными потребителями безалкогольных напитков можно использовать для разделения потребителей на логические группы или сегменты. AC может классифицировать потребителей безалкогольных напитков на основе их отношения к нормальным или низкокалорийным безалкогольным напиткам, и в результате можно выделить общие кластеры на основе сходства и демографических различий.

Однако никогда не следует ожидать единого и окончательного решения проблемы создания кластеров.

На практике будут рассмотрены различные решения, полученные на основе применения многих методов, предлагаемых этим анализом, и после их соответствующего сравнения мы будем ориентироваться на наиболее полезные для предлагаемого типа исследования. Знания исследователя о его клиентах, продуктах или услугах будут играть важную роль при выборе между различными альтернативными решениями.

Основные понятия кластерного анализа

Большинство процедур, используемых в этом многовариантном методе, относительно просты, так как они не поддерживаются статистическими рассуждениями. Большинство методов группировки эвристические, основанные на алгоритмах. Таким образом, AC представляет сильный контраст с анализом дисперсии, регрессии, дискриминантного анализа и факторного анализа, которые основаны на статистических рассуждениях.

Основополагающие принципы, используемые в любом ЦС:

  • Агломерационный отчет

    Предоставляет информацию об объектах или наблюдениях, которые объединяются на каждом этапе процесса иерархической группировки Центры группировки

    Средние (средние) значения переменных для всех наблюдений или объектов в определенной группе.

    Они являются начальными отправными точками в неиерархической группировке. Группы построены вокруг этих центров или начальных чисел.

    Участие в группе Указывает группу, к которой принадлежит каждый объект или случай. Дендрограмма

    Также называется графом дерева, это графическое устройство для представления результатов кластера.

    Вертикальные линии представляют группы, которые объединяются. Положение линии на шкале указывает расстояния, на которых соединяются группы. Он читается слева направо Расстояние между центрами групп

    Указывает расстояние между отдельными парами групп. Широко разделенные группы различны и поэтому желательны Диаграмма

    сосулек Это графическое представление результатов кластера, оно так названо, потому что оно напоминает ряд сосулек, свисающих с карнизов дома. Столбцы соответствуют объектам, которые сгруппированы, а строки соответствуют количеству кластеров. Читать снизу вверх Матрица коэффициентов расстояния / подобия

    Это нижняя треугольная матрица, которая содержит расстояния в парном направлении между объектами или корпусами.

Этапы кластерного анализа

Первый шаг - сформулировать проблему группировки, определив переменные, на которых она основана. Затем необходимо выбрать подходящее измерение расстояния. Мера расстояния определяет, насколько похожи или разные объекты, которые сгруппированы вместе. Впоследствии, процедура группировки должна быть выбрана. Некоторые из них доступны, но задача исследователя состоит в том, чтобы выбрать тот, который лучше всего подходит для предлагаемой задачи исследования.

Решение о количестве кластеров требует критериев исследователя. Полученные кластеры следует интерпретировать с точки зрения дополнительных значимых переменных. Наконец, исследователь должен оценить валидность кластерного процесса.

1. Постановка проблемы

Возможно, наиболее важной частью постановки проблемы обеспечения качества является выбор переменных, на которых основана группировка. Включение одной или нескольких не относящихся к делу переменных может исказить решение для группировки, которое в противном случае могло бы быть полезным. По сути, выбранный набор переменных должен описывать сходство между объектами в соответствующих терминах для задачи исследования рынка. Переменные должны быть выбраны на основе предыдущих исследований, теории или рассмотрения проверяемых гипотез. В исследовательских исследованиях исследователь должен применять суждение и интуицию.

2. Выбор меры сходства

Поскольку целью кластера является группировка похожих объектов, необходима некоторая мера для оценки различий и сходств между объектами. Концепция сходства является фундаментальной в кластерном анализе. Сходство (подобие) является мерой соответствия или сходства между объектами, которые нужно сгруппировать. Наиболее распространенной стратегией является измерение эквивалентности с точки зрения расстояния между парами объектов. Объекты с уменьшенными расстояниями между ними больше похожи друг на друга, чем объекты с большими расстояниями и поэтому будут сгруппированы в одном кластере.

Таким образом, любой объект можно сравнить с любым другим объектом с помощью меры сходства.

Для измерения сходства объектов ЦС существует три метода:

  • Меры корреляции Меры дистанции Меры ассоциации

Каждый из этих методов представляет определенный взгляд на сходство, в зависимости от целей и типа данных. Меры корреляции и расстояния требуют метрических данных, в то время как меры ассоциации требуют неметрических данных.

Многие компьютерные программы имеют ограниченную поддержку мер ассоциации, и исследователь часто вынужден сначала вычислять меры сходства, а затем вводить матрицу сходства в кластерную программу.

3. Стандартизация данных

После того, как мера была выбрана для количественного определения сходства между парами объектов, исследователь должен задать еще один последний вопрос… должны ли данные быть стандартизированы до расчета сходства? Чтобы адекватно ответить на этот вопрос, исследователь должен принять во внимание, что большинство измерений расстояния довольно чувствительны к различиям в масштабах или величинах, сделанных между переменными.

Как правило, переменные с большой дисперсией (большие значения их стандартных отклонений) оказывают большее влияние на конечное значение сходства.

Рассмотрим в качестве примера, что вы хотите сгруппировать индивидуальность группы людей по трем переменным: отношение к товару, возраст и доход. Предполагается, что мы должны измерять отношение по шкале «нравится-не нравится» из семи пунктов, а возраст измеряется в годах, а заработок - в долларах.

Если мы отобразим результаты, полученные в соответствующем опросе, на трехмерном графике, расстояние между точками (и их сходства) будет почти полностью основано на разнице в доходах.

Объяснение довольно простое, в то время как возможные различия в отношении к продукту находятся в диапазоне от одного до семи, а в доходах может быть в сто раз больше.

Таким образом, мы не сможем (графически) наблюдать какую-либо разницу в измерении, связанном с отношением к продукту. По этой причине исследователь должен осознавать неявный вес переменных, которые участвуют в исследовании.

Наиболее распространенной формой стандартизации является преобразование каждой переменной в типичные оценки (также известные как оценки Z). Способ расчета состоит в том, что каждое наблюдение каждой переменной вычитается из соответствующего среднего значения, а результат этой операции делится на стандартное отклонение (стандарт) рассматриваемой переменной.

Этот процесс преобразует оценку каждой исходной информации в стандартизированное значение со средним значением нуля и стандартным отклонением один. В конечном счете, что достигается с помощью этого, так это устранить один за другим предрассудки, связанные с различиями в шкалах различных атрибутов (переменных), используемых в анализе.

4. Допущения анализа

AC представляет собой методологическую цель для количественной оценки характеристик ряда наблюдений. Следовательно, он обладает сильными математическими свойствами, но не имеет статистических основ. Требования нормальности, линейности и гомоскедастичности (которые так актуальны в других методах), имеют небольшую согласованность в AC.

Тем не менее, исследователь должен сосредоточить свое внимание на двух других важных вопросах для этого типа анализа, таких как: репрезентативность выборки и мультиколлинеарность.

Во многих случаях для проведения кластерного анализа доступна перепись населения. Затем получают выборку случаев, и ожидается, что полученные из нее кластеры будут представлять структуру исходной популяции. Аналитик всегда должен помнить, что кластерный анализ будет таким же хорошим, как и репрезентативность выборки.

Таким образом, все усилия должны быть направлены на обеспечение такой репрезентативности, чтобы результаты могли быть обобщены для интересующего населения.

Мультиколлинеарность была результатом других многомерных методов, поскольку было трудно дифференцировать истинное влияние мультиколлинеарных переменных. В кластерном анализе, с другой стороны, эффект отличается, так как мультиколлинеарные переменные неявно взвешиваются более жестким способом.

Предположим, например, что респонденты сгруппированы в десять переменных, связанных с определенной услугой. Изучая мультиколлинеарность, мы понимаем, что на самом деле есть две четко дифференцированные группы переменных.

Первый состоит из восьми элементов (переменных), а второй из оставшихся двух.

Если мы хотим действительно сгруппировать респондентов по измерениям анализируемой услуги (в данном случае, представленной двумя группами переменных), мы не сможем рассматривать десять переменных в целом, поскольку это будет означать взвешивание каждой переменной в равной степени.

Другими словами, при равномерном взвешивании кластерного анализа для каждой переменной первое измерение будет иметь в четыре раза больше возможностей (восемь элементов против двух) повлиять на показатель сходства, чем второе измерение.

Таким образом, акт мультиколлинеарности - это процесс взвешивания, скрытый от наблюдателя, но, тем не менее, влияющий на анализ. По этой причине аналитик должен поощрять исчерпывающее изучение переменных, используемых в кластерном анализе, чтобы найти возможную мультиколлинеарность.

Если в переменных, использованных для исследования, обнаружена мультиколлинеарность, необходимо будет получить одинаковое количество из них в каждом наборе или использовать одну из мер расстояния, например расстояние Махаланобиса, для компенсации существующей обнаруженной корреляции.

Как только переменные выбраны и матрица сходств рассчитана, начинается процесс разделения. Сначала исследователь должен выбрать алгоритм группировки, который будет использоваться для формирования кластеров (групп), а затем принять решение о количестве формируемых групп.

Оба решения имеют существенные последствия не только для полученных результатов, но также и для интерпретации, которая может быть получена из них.

5. Выбор процедуры группировки

Существует два типа процедур: иерархические и неиерархические. Иерархический конгломерат характеризуется развитием иерархии или древовидной структуры.

Важной особенностью иерархических процедур является то, что результаты первого этапа могут быть вложены в результаты последнего этапа, что приводит к древовидному подобию. Например, решение кластера шесть получается благодаря объединению двух кластеров, найденных в седьмой фазе кластера.

Таким образом, кластеры формируются только путем объединения существующих групп, поэтому любой член кластера может отслеживать свои отношения по неразрывному пути, который начинается с простых отношений.

Иерархические методы могут быть агломерацией или дивизией. Агломерационная кластеризация начинается с каждого объекта в отдельной группе.

Кластеры формируются путем группировки объектов в более крупные наборы. Этот процесс продолжается до тех пор, пока все объекты не станут частью одной группы.

Разделение кластеров начинается со всех объектов, сгруппированных в один набор. Кластеры делятся до тех пор, пока каждый объект не станет независимой группой.

Внутри кластеров кластеризацией являются методы кластеризации, которые часто используются в исследованиях рынка.

Они состоят из методов Link, методов Variance или сумм квадратов ошибок и метода Centroid. Методы ссылки включают одну ссылку, полную ссылку и среднюю ссылку.

Метод простой ссылки основан на минимальном расстоянии или правиле ближайшего соседа. Первые два объекта конгломерата - те, которые имеют самое короткое расстояние друг от друга. Следующее кратчайшее расстояние идентифицируется, сгруппирован ли третий объект с первыми двумя, или формируется новый кластер из двух объектов.

На каждом этапе расстояние между двумя кластерами - это расстояние между их двумя ближайшими точками.

На любом этапе из одного кратчайшего звена между ними возникают два кластера. Этот процесс продолжается до тех пор, пока все объекты не будут в кластере.

Метод простой ссылки не работает должным образом, когда кластеры не определены четко.

Метод полной ссылки похож на одну ссылку, за исключением того, что он основан на максимальной дистанции или стратегии самого дальнего соседа. В этом случае расстояние между двумя кластерами рассчитывается как расстояние между их самыми дальними точками.

Метод усредненного канала работает аналогично, но в этом методе расстояние между двумя кластерами определяется как среднее значение расстояний между всеми парами объектов, где найден член пары каждого из кластеров (см. Рисунок Методы связи для кластера). Как можно видеть, метод усредненного канала использует информацию обо всех парах расстояний, а не только о минимальном или максимальном. По этой причине обычно предпочтительнее простых и полных методов связывания.

Методы дисперсии пытаются генерировать кластеры, чтобы уменьшить дисперсию внутри групп. Часто используемый метод отклонения - Процедура Уорда.

Для каждого кластера рассчитываются средние значения для всех переменных. Затем для каждого объекта рассчитывается квадратное евклидово расстояние для средних групп (рисунок «Другие методы агломерационной кластеризации»); эти расстояния добавляются ко всем объектам. На каждом этапе два кластера объединяются с наименьшим увеличением суммы квадратов расстояний внутри кластеров.

В методе центроидов расстояние между двумя группами - это расстояние между их центроидами (средние значения для всех переменных), как показано на рисунке. Другие методы агломерационной кластеризации.

Каждый раз, когда объекты группируются, вычисляется новый центроид. Из иерархических методов метод Average Link и процедура Ward показали лучшую производительность, чем другие.

Второй тип кластерной процедуры, неиерархические кластерные методы, часто называют K-Means Clustering.

Эти методы включают в себя последовательный порог, параллельный порог и разделение для оптимизации.

В методе последовательного порога выбирается групповой центр, и все объекты группируются в пределах порогового значения, которое заранее указывается из центра.

Затем выбирается новый групповой центр или начальное число, и процесс повторяется для разгруппированных точек. Как только объект сгруппирован с семенем, он больше не рассматривается как кластер с последующими семенами. Метод Parallel Threshold работает аналогично, за исключением того, что несколько групповых центров выбираются одновременно, а объекты порогового уровня группируются внутри ближайшего центра.

Метод Подразделения для оптимизации отличается от двух других пороговых процедур тем, что впоследствии объекты можно переназначать другим группам, чтобы оптимизировать общий критерий, такой как среднее расстояние внутри групп для заданного количества кластеров.

Существует два основных способа узнать режим группировки рассматриваемых объектов:

  1. Диаграмма сосулек.

    Ее столбцы соответствуют группируемым объектам (интервьюируемым,…), а строки - количеству групп. Эта цифра читается снизу вверх. Первоначально все случаи рассматриваются как отдельные группы. В первом случае два ближайших объекта объединяются.

    Каждый последующий шаг приводит к формированию новой группы одним из следующих трех способов: (1) два отдельных случая группируются, (2) один случай присоединяется к существующей группе, (3) объединяются две группы.

    Это читается слева направо. Вертикальные линии представляют объединенные группы. Положение линии на шкале указывает расстояния, на которых соединяются группы.

    Поскольку многие расстояния одинаковы по величине на ранних стадиях, трудно определить последовательность, в которой образуются некоторые из самых ранних скоплений. Однако ясно, что на последних двух этапах расстояния, на которых объединяются кластеры, велики. Эта информация полезна при определении количества кластеров.

Также можно получить информацию об участии тематических кластеров, указав количество групп. Хотя эта информация может быть выведена из следа сосульки, табличное представление полезно.

Иерархические и неиерархические методы

6. Решение о количестве кластеров

Большая проблема во всех методах агломерации состоит в том, как выбрать количество групп (кластеров). К сожалению, объективного процесса отбора нет.

В случае иерархического кластерного анализа расстояния между кластерами, отраженные на разных этапах процесса агломерации, могут служить полезным руководством, поэтому аналитик может установить ограничение, чтобы остановить процесс по своему усмотрению (эту информацию можно получить из программы агломерация или дендрограмма).

Например, вы можете сделать это, когда расстояние между группами превышает определенное значение или когда последовательные расстояния между шагами отмечают внезапный скачок.

Однако наиболее часто используемым вариантом является вычисление различных агломерационных решений (например, две, три, четыре группы) и затем выбор между альтернативными решениями с помощью заранее установленного критерия, здравого смысла или теоретических основ.

Эти расстояния часто называют мерами изменчивости ошибок.

В случае неиерархического кластерного анализа можно построить график, который сравнивает количество групп с отношением между общей дисперсией групп и дисперсией между группами.

Точка на графике, где происходит отмеченный изгиб или изгиб, укажет соответствующее количество групп. В общем, не стоит увеличивать количество групп за пределами этой точки. Другая возможность определить оптимальное количество групп состоит в том, чтобы определить некоторую интуитивную концептуализацию теоретической взаимосвязи данных.

Исследователи должны изучить различия между размерами групп с концептуальной точки зрения, сравнивая полученные результаты с ожиданиями, созданными в целях исследования.

Другая проблема, которая может возникнуть при анализе такого типа, - это наличие групп из одного человека, то есть кластеров, состоящих из одного человека. Это проблема, потому что они могут быть выбросами (выбросами), не обнаруженными в процессе отладки нашего источника данных.

Если появляется группа из одного члена, аналитик должен изучить, представляет ли она действительный структурный компонент в выборке, или, наоборот, его следует удалить, поскольку он не является репрезентативным. Если какое-либо наблюдение удалено из анализа, исследователь должен снова запустить кластерный анализ для новых достоверных наблюдений и, таким образом, определить новые группы.

7. Интерпретация и подготовка профиля кластера.

Интерпретация и профиль групп включает в себя анализ групповых центроидов. Центроиды представляют средние значения объектов, которые группа содержит в каждой из переменных. Центроиды позволяют нам описывать каждую группу, назначая имя или метку.

Если кластерная программа не предоставляет эту информацию, ее можно получить с помощью дискриминантного анализа.

Целью этого этапа является, по сути, изучение вариаций кластеров для назначения меток, которые правдиво описывают их природу.

Полезно подготовить профиль групп в терминах переменных, используемых для кластера, таких как демографические, психографические, использование продукта, использование СМИ или другие переменные.

Давайте рассмотрим пример, чтобы лучше понять, как работает процесс. Предположим, мы заинтересованы в изучении эффективной диеты против регулярного употребления легких напитков.

Для этого была подготовлена ​​шкала оценки отношения респондента, которая состояла из семи различных утверждений. Таким образом, опрошенные лица дали оценки от 1 до 7 баллов. Утверждения, которые были частью шкалы из семи пунктов, были такими: легкие диетические напитки имеют более сильный вкус, диетические напитки более полезны и т. Д.

Было решено собрать демографические данные и данные о потреблении безалкогольных напитков в связи с их актуальностью для исследования.

Как указывалось ранее, на этом этапе изучаются средние значения по профилям. Для нашего конкретного случая на основе шкалы отношения, разработанной для каждой группы и, таким образом, возможности назначить описательную метку для каждой из них.

Предположим, что две группы, полученные в результате кластерного анализа, имели благоприятное отношение к легким диетическим напиткам, а третья группа - негативное отношение. Можно было бы предположить, что из двух групп, благоприятных по отношению к себе, одна из них будет благоприятна только для легких диетических напитков, а другая - для легких и обычных безалкогольных напитков.

Затем мы оценили бы отношение каждого кластера и разработали содержательные интерпретации для облегчения маркировки для каждой группы. Например, один из кластеров может быть помечен как человек, заботящийся о своем здоровье и калорийности, а другой - как человек, равнодушный к росту сахара.

Что касается профилирования конгломератов или групп, следует сказать, что это только описание характеристик каждого кластера, чтобы объяснить, как они могут сделать выводы в соответствующих измерениях.

Чтобы достигнуть этого, обычно используется Дискриминантный Анализ или некоторая другая соответствующая статистика. Аналитик использует данные, ранее не включенные в процедуру агломерации, чтобы наметить характеристики каждого кластера.

Этими данными обычно являются демографические характеристики, психографические характеристики, модели потребления и т. Д.

Применяя этот процесс и экстраполируя его на пример напитков, мы пришли бы к выводу, что кластер людей, заботящихся о своем здоровье и калориях, заключается в лучшем образовании или более высоких профессиональных доходах, поскольку они являются умеренными потребителями безалкогольных напитков.

Таким образом, анализ профиля фокусируется на описании не того, что кластеры непосредственно определяют, а (после определения различных групп) их собственных характеристик.

По этой причине особое внимание уделяется характеристикам, которые определяют группы, и способности членов каждого конгломерата прогнозировать конкретное отношение рассматриваемого кластера.

8. Проверка полученных кластеров.

Учитывая общие критерии, включенные в AC, ни одно групповое решение не должно приниматься без оценки его достоверности и достоверности. Валидация - это попытка аналитика убедиться, что полученные кластеры являются репрезентативными для исходного населения и что они могут быть обобщены для других объектов и стабильны во времени.

Следующие процедуры обеспечивают адекватный анализ качества результатов группировки:

  • Выполните AC с теми же данными и используйте различные измерения расстояния. Сравните результаты со всеми измерениями, чтобы определить стабильность решений. Используйте различные методы кластеризации и сравните результаты. Разделите данные пополам случайным образом. Выполните AC отдельно в каждой половине (подвыборка). Сравните решения двух анализов и оцените соответствие результатов или сравните групповые центроиды двух подвыборок. Удалите переменные случайным образом. Выполните группировку на основе сокращенного набора переменных. Сравните результаты на основе полного набора с результатами, полученными при выполнении кластера.В неиерархическом кластере решение может зависеть от порядка случаев в наборе данных. Чтобы изучить это,Рекомендуется выполнять несколько прогонов и использовать разные порядки дел, пока решение не стабилизируется.

Определение переменных

Переменные определяются как свойство, которое может изменяться и изменение которого можно измерить. Примеры: секс, мотивация к работе, личность, участие в кампании, качество обслуживания.

При работе с гипотетическими формулировками определение типа отношений, установленных между переменными, имеет жизненно важное значение, поскольку проверка зависит от степени, в которой эти отношения могут быть продемонстрированы. Это требует большой точности в использовании логических терминов, которые связывают переменные, поскольку неправильно используемое выражение может полностью исказить смысл формулировки.

Отношения между переменными могут быть классифицированы следующим образом:

  1. Обратимый: если X, то Y, и если Y, то X, или необратимый: если X, то Y, но да Y, нет никакого заключения относительно X. Детерминированный: если X, то всегда Y, или стохастический: если X, то вероятно, Y. Последовательный: если X, то позднее Y или сосуществующий: если X, то также Y. Достаточно: если X, то независимо от чего-либо еще, Y или контингента: если X, то Y, но только если Z. Необходимо: если X и только X, то Y или заменяемый: если X, то Y, но если Z, также Y. Взаимозависимы: когда объединяются атрибуты обратимости, непредвиденности и последовательности, например: если X, меняется до Xi, Xii, Xiii…., поэтому Y также изменяется до Yi, Yii, Yiii… и т. д.

После того как взаимосвязи между переменными были установлены с точностью, необходимо выполнить их операционализацию, то есть определить размеры, показатели, шкалы и категории, с помощью которых можно проверить наличие измеряемой переменной.

В теории исследования определены три типа переменных, которые в настоящее время фигурируют в гипотетических схемах: зависимые, независимые и сторонние переменные. Мы не считаем необходимым вдаваться в подробности о характеристиках каждой из них, хотя существует много примеров, когда взаимосвязь между первыми двумя путается или те, которые параллельны основным взаимосвязям, не принимаются во внимание.

Количественные и качественные измерения можно различить по любой переменной. Переменные размеры также могут быть пространственными и временными. Другие типы измерений являются контекстными и ситуативными, кроме того, размеры переменной могут быть индивидуальными и групповыми.

Этот вопрос требует глубокого предварительного анализа объекта исследования, так что все измерения и показатели, которые идентифицируют выбранную переменную, могут быть установлены с точностью. Отсюда может быть разработана надежная и проверяемая гипотеза.

На следующей диаграмме представлен анализ возможных измерений для двух переменных, выбранных в примере из группы учащихся, где выбраны успеваемость и школьная дисциплина:

Размеры производительность дисциплина
количественный Прошедший процент Количество фактов
качественный Качество оценок Превосходство, величина
Задача Рейтинги Санкции и стимулы
субъективный Критерии эффективности (учителей, учеников, родителей, чиновников и др.). Критерии дисциплины (от учителей, учеников, родителей, чиновников и др.).
Космос На экзаменах, на уроках, внеклассных заданиях и других. В классе, мастерской, спортивной зоне, библиотеке и др.
временный Еженедельно, ежемесячно, семестр, учебный год, карьера и т. Д. Еженедельно, ежемесячно, семестр, учебный год, карьера и т. Д.
Контекстуальный В запланированных или неожиданных упражнениях. Под контролем учителя или других людей.
ситуативный В частичном, окончательном или избирательном контроле. В педагогической, внеучебной, развлекательной деятельности и т. Д.
Физическое лицо Индивидуальное исполнение по предмету, периоду и курсу. Индивидуальное соблюдение дисциплинарных правил.
группа Групповое выступление по предмету, периоду и курсу. Индивидуальное соблюдение дисциплинарных правил.

Из этих изученных элементов мы переходим к выбору или определению переменных, для которых были проведены консультации с различными библиографиями.

На основании существующей связи с проводимыми исследованиями и заключительными элементами, которые мы изучаем, было выбрано исследование Guimaraes, Sandy and McKeen (2003) для журнала Quality Managetmen Journal Vol.10. Issue4. Октябрь 2003 года под названием «Эмпирическая проверка некоторых факторов, связанных с развитием систем качества», в которой проводится углубленное исследование с использованием данных из более чем 228 систем качества с целью выбора переменных, которые влияют на качество выбранных ими услуг Принимая во внимание аспекты, рассматриваемые там и принятые за фундаментальную основу для определения переменных этого исследования, в качестве переменных для проведения кластерного анализа были определены следующие:

  • Количество проведенных аудитов: эта переменная указывает количество аудитов, выполненных каждой территорией, с учетом их размера и территориальных характеристик. Количество аудиторов, которые имеет система: она позволяет нам узнать человеческие ресурсы, которые есть у системы на разных территориях, она также указывает на дефицит или удовлетворение потребностей человеческих ресурсов, вовлеченных в предоставление услуги. Квалификация аудитора: это опыт, приобретенный у поставщика услуг, не все поставщики имеют одинаковое обучение. Опыт провайдера получается путем обучения подготовке задач, которые должны быть выполнены, и их выполнению.Характеристики бизнес-системы: бизнес-система территорий может быть однородной или разнородной, в зависимости от характеристик и развития каждой территории, это означает, что предоставляемые услуги аудита различаются с точки зрения количества проводимых аудитов, количества вовлеченных аудиторов, ресурсы, которые были выделены, время проведения аудитов, переквалификация и обучение персонала.

Библиография:

Aiteco Консультанты, Методы и Инструменты.

Барредо Прието, Мануэль. Философия качества.

Бенитес Миранда, Мигель Анхель, Миранда Дерубас, Мария Виктория. Бухгалтерский учет и финансы для экономической подготовки управленческих команд / Анхель Мигель Бенитес Миранда, Мария Виктория Мирандас Дерубас. - Министерство легкой промышленности, 1997 год.

Бласкес Мораль, Хуан. Аудит. Хуан Бласкес Мораль. Редакция Nacional de Cuba, Гавана, 1965

Болтен, Стивен Э. Финансовое управление. Э. Стивен Болтен. Редакция Лимуса С.А. Балдерас. Университет Хьюстона. Мексика. DF, 1995.

Cantú. Развитие культуры качества. Cantú, HD, Mc Graw_Hill. 2001.

Коллектив авторов. CECOFIS. Диплом по общему аудиту. Пособие для самостоятельной работы. Том 1 и 2 2001 года

_______, Принципы аудита. Город Гавана. Куба.

_______, Положение о стандартах аудита. Государственный контроль. Куба, 1999.

Колин, Летисия. «Стандарты ISO 9000-2000 для систем управления качеством»

Кук, Джон В. и Уинкль, Гари М. Аудит, 3-е издание, McGRAW-HILL, Буэнос-Айрес-Аргентина, 1987.

Коспин, М. Освальдо. 7 Основные инструменты для контроля качества.

Де Миранда, Антонио; Торрас, Оскар. Аудит социалистических компаний / Антонио де Миранда, Оскар Торрас. Университет Гаваны. Гавана, 1974.

Указ-закон № 159 об аудите. Государственный контроль. Куба, 1995 год.

Echevarría Hernández, Rogelio. Внутренний аудит. Рохелио Эчеваррия Эрнандес. Министерство финансов и цен, 1994.

Эванс, Джеймс Р. и Линдсей, Уильям М. Администрация и контроль качества. Международный Томсон Эдиторес. Мексика, 2000

GestioPolis.com. Стандарты качества. Доступно по адресу: www.gestiopolis.com/recursos/documentos/fulldocs/ger/normascalidad.htm

Гомес Авилес, Бисмайда. Управление качеством. Концепции, терминология и подходы. Куба, 2002

Гимарайнш, Сэнди и МакКин (2003) QMJ Vol.10 Выпуск 4. Октябрь 2003.

Хекманн, Херардо. Измерение качества услуг.

Эрнандес, Хьюго. Качественные поколения.

Холмс, Артур В.: Аудит: принципы и процедуры. W Артур Холмс. Издательский дом Hispanoamerica. Мексика, 1952 г.

Руководство по межсетевым технологиям. Глава 49. «Качество обслуживания сети».

ISO 9000-2000. Системы менеджмента качества. принципы и словарный запас.

Они клянутся, Иосиф Моисей. Руководство по контролю качества. Джозеф Моисей Джуран Graw_Hill. 5. Издание. 2001.

Страница качества. 7 инструментов качества.

Леон Лефкович, Маврикий. Кайдзен - Непрерывное улучшение применяется в области качества, производительности и снижения затрат.

Мендоса Акино, Хосе Антонио. Измерение качества обслуживания.

Корпорация Майкрософт. «Краткое изложение механизмов QoS и как они взаимодействуют», 2004.

Министерство аудита и контроля. Руководство по MAC. 2000

Морено, Хоакин. Финансы в компании. Четвертое издание. Мексика, 1989.

Патон, WA Руководство бухгалтера. В. А. Патон. Мексика, Утеха, 1943.

Поблете, Фернандо. Стандарты аудита.

Понс Murguía, Рамон. Заметки класса Магистр промышленного машиностроения. Конференции, предоставленные д-ром К. Рамоном Понсом

Мургия, Резолюция № 2/97, Государственный контроль. Куба, 1997 г.

Журнал »Аудит и контроль» Министерство аудита и контроля. № 4 от 2001 г.

Журнал «Аудит и контроль» Министерство аудита и контроля. № 8 Апрель 2003 г.

Журнал «Аудит и контроль» Министерство аудита и контроля. Том I, № 3. Издание.

Сангинетти, Корабель. Анализ и проектирование систем.

Университет Мигеля Эрнандеса. Качественные инструменты.

Вилар Баррио, Хосе Франциско. 7 новых инструментов для улучшения качества, 2-е издание.

Уэстон, Дж. Фред и Кейпленд, Томас Э. Финансы и администрация. Девятое издание. Мексика, 1996 год.

Забаро Бабани, Леон. Аудит и контроль. Леон Забаро Бабани. Сентябрь-декабрь 2000 г.

Кластерный анализ для образовательных аудиторских услуг