Автор работы: Пользователь скрыл имя, 15 Июня 2014 в 14:35, реферат
"Кластерный анализ – совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях (мерах близости) между ними. По смыслу аналогичен терминам: автоматическая классификация, таксономия, распознавание образов без учителя." Такое определение кластерного анализа дано в последнем издании "Статистического словаря". Фактически "кластерный анализ" - это обобщенное название достаточно большого набора алгоритмов, используемых при создании классификации. В ряде изданий используются и такие синонимы кластерного анализа, как классификация и разбиение. Кластерный анализ широко используется в науке как средство типологического анализа. В любой научной деятельности классификация является одной из фундаментальных составляющих, без которой невозможны построение и проверка научных гипотез и теорий.
Z-шкалы (Z-Scores). Из значений переменных вычитается их среднее, и эти значения делятся на стандартное отклонение.
Разброс от -1 до 1. Линейным
преобразованием переменных
Разброс от 0 до 1. Линейным
преобразованием переменных
Максимум 1. Значения переменных делятся на их максимум.
Среднее 1. Значения переменных делятся на их среднее.
Стандартное отклонение 1. Значения переменных делятся на стандартное отклонение.
Кроме того, возможны преобразования самих расстояний, в частности, можно расстояния заменить их абсолютными значениями, это актуально для коэффициентов корреляции. Можно также все расстояния преобразовать так, чтобы они изменялись от 0 до 1.
Определение количества кластеров.
Существует проблема определения числа кластеров. Иногда можно априорно определить это число. Однако в большинстве случаев число кластеров определяется в процессе агломерации/разделения множества объектов.
Процессу группировки объектов в иерархическом кластерном анализе соответствует постепенное возрастание коэффициента, называемого критерием Е. Скачкообразное увеличение значения критерия Е можно определить как характеристику числа кластеров, которые действительно существуют в исследуемом наборе данных. Таким образом, этот способ сводится к определению скачкообразного увеличения некоторого коэффициента, который характеризует переход от сильно связанного к слабо связанному состоянию объектов.
В нашем примере это скачок с 1,217 до 7,516. Оптимальным считается количество кластеров, равное разности количества наблюдений (14) и количества шагов до скачкообразного увеличения коэффициента (12).
Следовательно, после создания двух кластеров объединений больше производить не следует, хотя визуально мы ожидали появления трех кластеров.
Агрегирование данных может быть представлено графически в виде дендрограммы. Она определяет объединенные кластеры и значения коэффициентов на каждом шаге агломерации (отображены значения коэффициентов, приведенные к шкале от 0 до 25).
Дендрограмма для нашего примера приведена на рисунке 5. Разрез дерева агрегирования вертикальной чертой дал нам два кластера, состоящих из 9 и 5 объектов.
Рисунок 5 - Дендограмма процесса слияния
На верхней линии по горизонтали отмечены номера шагов алгоритма, всего алгоритму потребовалось 25 шагов для объединения всех объектов в один кластер.[7]
ЗАКЛЮЧЕНИЕ
В своей работе я постаралась показать, не только сложность данного вида анализа, но и оптимальные возможности обработки данных, ведь зачастую для точности результатов приходится использовать от десятков до сотен проб. Данный вид анализа помогает классифицировать и обработать результаты. Так же я считаю не маловажным, приемлемость в данном анализе компьютерных технологий, что позволяет сделать менее трудоёмким процесс обработки результатов и тем самым позволяет уделить большее внимание правильности отбора проб для анализа.
В использовании кластерного анализа имеются такие тонкости и детали, которые проявляются в отдельных конкретных случаях и видны не сразу. Например, роль масштаба признаков может быть минимальной, а может быть и доминирующей в ряде случаев. В таких случаях необходимо использовать преобразования переменных. Особенно результативно это при использовании методов, которые производят нелинейные преобразования признаков, повышающие в целом общий уровень корреляций между признаками.
Еще большая специфика в использовании кластерного анализа применительно к объектам, которые описываются только качественными признаками. В этом случае достаточно успешны методы предварительной оцифровки качественных признаков и проведение кластерного анализа с новыми признаками. В своей работе я показала, что кластерный анализ дает много новой и оригинальной информации как в случае его применения в достаточно изученных системах, так и при исследовании систем с неизвестной структурой.
Так же следует отметить, что кластерный анализ стал незаменим в эволюционных исследованиях, позволяя строить филогенетические деревья, показывающие эволюционные пути. Широко применяются эти методы и в программах научных исследований по физической и аналитической химии.
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ