Автор работы: Пользователь скрыл имя, 11 Марта 2014 в 11:16, контрольная работа
Первое применение кластерный анализ нашел в социологии. Название кластерный анализ происходит от английского слова cluster – гроздь, скопление. Впервые в 1939 был определен предмет кластерного анализа и сделано его описание исследователем Трионом. Главное назначение кластерного анализа – разбиение множества исследуемых объектов и признаков на однородные в соответствующем понимании группы или кластеры. Это означает, что решается задача классификации данных и выявления соответствующей структуры в ней. Методы кластерного анализа можно применять в самых различных случаях, даже в тех случаях, когда речь идет о простой группировке, в которой все сводится к образованию групп по количественному сходству.
ВВЕДЕНИЕ
3
1.
Определение и задача кластерного анализа
5
1.1
Определение кластерного анализа
5
1.2.
Задача кластерного анализа. Функции расстояния и меры сходства.
7
2.
Методы кластерного анализа
11
2.1.
Иерархические агломеративные методы
13
2.2.
Итеративные методы группировки. Метод k-средних
17
3.
Кластерный анализ в программе Statistica
21
ЗАКЛЮЧЕНИЕ
29
СПИСОК ИСТОЧНИКОВ И ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ
Затем 3-й и 4-й шаги итеративно повторяются. На каждой итерации происходит изменение границ кластеров и смещение их центров. В результате минимизируется расстояние между элементами внутри кластеров. Остановка алгоритма производится тогда, когда границы кластеров и расположения центроидов не перестанут изменяться от итерации к итерации, т.е. на каждой итерации в каждом кластере будет оставаться один и тот же набор записей. На практике алгоритм обычно находит набор стабильных кластеров за несколько десятков итераций.
Преимуществом алгоритма являются быстрота и простота реализации. К его недостаткам можно отнести неопределенность выбора начальных центров кластеров, а также то, что число кластеров должно быть задано изначально, что может потребовать некоторой априорной информации об исходных данных.
Выбор числа кластеров является сложным вопросом. Если нет предположений относительно этого числа, рекомендуют создать 2 кластера, затем 3, 4, 5 и т.д., сравнивая полученные результаты.
После получений результатов кластерного анализа методом k-средних следует проверить правильность кластеризации (т.е. оценить, насколько кластеры отличаются друг от друга). Для этого рассчитываются средние значения для каждого кластера. При хорошей кластеризации должны быть получены сильно отличающиеся средние для всех измерений или хотя бы большей их части.
Глава 3. Кластерный анализ в программе Statistica.
Применим рассмотренный ранее метод для исследование территориальной дифференциации структуры добавленной стоимости субъектов Южного и Северо-Кавказского федеральных округов с помощью специального программного обеспечения Statistica, используя статистические данные о структуре добавленной стоимости в субъектах Российской Федерации по состоянию на 2010 год (см. Приложение 1).
Перед проведением кластерного анализа следует обратить внимание на масштаб и шкалы, в которых представлены изучаемые признаки. Например, если одна переменная измерена в тысячах рублей, и ее среднее 2000, а вторая в рублях, и ее среднее 20, то при расчете расстояния между объектами даже небольшие различия по первой переменной будут вносить существенный вклад в увеличение расстояния, в то время как достаточно большие различия по второй переменной будут незаметны. В таких ситуациях рекомендуется привести данные к более сравнимому масштабу, перейдя к другим единицам измерения, или провести их стандартизацию.
В нашем случае стандартизация не является необходимой, все данные представлены в процентах.
Изначально исходные данные были представлены в файле формата *.xlsx, что позволило использовать опцию вставки с заголовками Paste with Headers – Paste with Both.
После вставки данных заходим в модуль кластерного анализа, используя пункт меню Statistics – Multivariate Exploratory Techniques – Claster Analysis.
В появившемся окне выберем Joining (tree clustering) – Объединение (древовидная классификация) и нажмем ОК.
В окне модуля иерархического кластерного анализа переходим на вкладку Advanced и далее работаем с ней. Нажимаем кнопку Variables и выбераем 5 анализируемых переменных для анализа.
В выпадающем списке Input file оставим установленный по умолчанию вариант Raw data – это означает, что исходные данные представлены матрицей «объект-свойство», строки которой представляют объекты, а столбцы – характеризующие эти объекты признаки. Именно в таком виде представлены наши исходные данные: 13 субъектов ФО (13 строк), характеризующихся пятью признаками (5 столбцов).
В выпадающем списке Cluster изменяем установленный по умолчанию вариант Variables (columns), означающий, что кластеризоваться будут признаки (столбцы), на нужный нам вариант Cases (rows), означающий, что кластеризоваться будут объекты – в нашем случае субъекты ФО.
Далее определяемся с метрикой. В Statistica имеется несколько вариантов:
Выбор метрики производится в выпадающем списке Distance measure. Так как в нашем случае нет информации о том, что какой-то признак более важен для классификации выберем обычное евклидово расстояние.
После выбора метрики определяемся с алгоритмом кластеризации (выпадающий список Amalgamation (linkage) rule):
Выберем метод Уорда – часто он дает довольно компактные и хорошо разделенные кластеры.
Нажатие ОК выводит на экран форму вида, представленного на рисунке ниже.
Рис. 4 Вид окна вызова результатов модуля кластерного анализа
Результаты иерархической классификации для наглядности представляется в виде дендрограммы. Мы взяли горизонтальную дендрограмму (кнопка Horizontal hierarchical tree plot), поскольку у нас достаточно длинные названия кластеризуемых объектов, и на вертикальной дендрограмме они были бы неразличимы.
Для определения количества кластеров, на которые целесообразно разбить имеющиеся субъекты, нужно выбрать пороговое расстояние - то есть такое расстояние, при превышении которого объединяться будут уже слишком далекие объекты. После выбора порогового расстояния проводится перпендикуляр через точку, соответствующую выбранному расстоянию, и подсчитывается количество его пересечений с «ветвями» дендрограммы. Количество пересечений и будет определять количество классов, а объекты, оказавшиеся на «отсеченной» ветке – состав классов. Например, при пороговом расстоянии в 30 выделяется 3 класса, при пороговом расстоянии 20 – 4 классов, при пороговом расстоянии 11 – 7 классов (см. Приложение 2).
Выбор количества классов может определяться на основе анализа специальных функционалов качества, на основе сравнения разбиений на различное количество классов, возможности из содержательной интерпретации и других критериев. Окончательный выбор остается за исследователем.
Одним из доступных в Statistica инструментов для выбора количества классов являются график процесса объединения (кнопка Graph of Amalgamation schedule) и таблица объединения объектов (кнопка Amalgamation schedule). Ниже представлены график процесса объединения и таблица объединения объектов.
Используя график объединения объектов количество классов можно найти как разность n-m, где n – количество объектов в выборке, m – номер шага где находится точка «перелома» на графике.
Рис. 6 График объединения объектов в классы методом Уорда.
В случае использования таблицы в столбце linkage distance находится такой номер шага m, объединение на котором произошло уже на существенно большем расстоянии, чем на шаге m-1; тогда количество классов равно n-m, где n – количество объектов в выборке.
В нашем случае в качестве точки перелома можно рассматривать шаг под номером 9, откуда получаем 13 - 9 = 4 класса. Такое же количество классов подтверждается и анализом таблицы объединения: на шаге 9 произошел скачок расстояния более, чем на 4 единицы, в то время как на предыдущих шагах скачки не превышали 3 единиц.
Опираясь на полученные результаты можно сказать, что целесообразно выбранные субъекты по схожести структуры добавленной стоимости разделить на 4 класса.
Анализируя порядок следования субъектов ФО сверху вниз на дендрограмме, можно определить состав классов (см. Приложение 4):
1 класс 5 субъектов с Республики Адыгея по Республику Северная Осетия-Алания
2 класс 3 субъекта с Республики Дагестан по Республику Ингушетия
3 класс 2 субъекта с Республики Калмыкия по Республику Карачаево - Черкесская
4 класс 3 субъекта с Астраханской области по Волгоградскую область
После упорядочивания данных по алфавиту и восстановления соответствий между названиями субъектов и их классами, получим таблицу правильных сопоставлений объектов и классов (см. Приложение 5).
Теперь мы можем определить отличия классов друг от друга, для этого найдем средние значения признаков в каждом из выделенных. Выбираем пункт главного меню Statistics – Basic Statistics and Tables, в нем пункт Descriptive statistics.
В окне модуля описательной статистики, нажав кнопку Variables, выберем пять переменных (c/х, добыча полезных ископаемых и т. д.). Нажмем кнопку By Group и выберем в качестве группирующей переменной Grouping Variable(s) ту, в которую мы сохранили номера классов.
В качестве описательных характеристик классов можно определить не только средние значения классов, но также можно рассчитать: границы доверительных интервалов для среднего (чтобы посмотреть, не пересекаются ли они для разных классов), дисперсию (чтобы сравнить классы по величине внутриклассового разброса значений), минимальное и максимальное значения, количество объектов в классе и коэффициент вариации (рис. 9).
Рис. 9 Выбор описательных характеристик.
Нажатие Summary даст следующие результаты, например, для третьего класса (рис. 10). Скопируем средние значения признаков в каждом классе в новый файл и переименуем переменные и объекты, как показано на рис. 11.
Рис. 10 Описательная статистика по третьему классу.
Затем выделим все переменные, выполним щелчок правой кнопки мыши и в выпадающем меню выберем Graphs of Block Data – Line Plot: Entire Columns. В результате чего получим график средних значений признаков в классах, полученных методом Уорда (рис. 12).
Рис. 11 Данные по средним значениям признаков в классах.
Рис. 12 График средних значений признаков в классах.
Анализ данного графика позволяет нам дать более полную интерпретацию классам.
Из графика видно, что у первого и второго класса высокий уровень доли в добавленной стоимости по оптовой и розничной торговли, в среднем этот показатель составляет 19%.
Первый класс, состоящий из пяти субъектов, имеет не плохие показатели по доли в добавленной стоимости сельскохозяйственной продукции, обрабатывающего производства, оптовой и розничной торговли и операциям с недвижимостью. Но так же у него самые низкие показатели приходящейся на добычу полезных ископаемых – в среднем 0,5% от всей добавленной стоимости.
Второй класс имеет не самые лучшие показатели по доли в добавленной стоимости с/х продукции и добычи полезных ископаемы. Самый низкий уровень операций с недвижимостью и обрабатывающего производства. В целом можно заметить, что для субъектов этого класса рассмотренные пять статей добавленной стоимости формируют меньше половины всей добавленной стоимости - 38,3%.
Не смотря на то, что третий класс является самым малочисленным, в него входит всего 2 субъекта, он является лидером по доле в добавленной стоимости сельскохозяйственной продукции – 27,5 % от всей доли. Довольно высока и доля стоимости, формируемая за счет добычи полезных ископаемых и операций с недвижимостью. Но относительно низкие показатели по доли в добавленной стоимости обрабатывающего производства, а так же розничной и оптовой торговли.
Характерной особенностью субъектов, вошедших в четвертый класс, является самая высокая доля добавленной стоимости, приходящейся на обрабатывающее производство в среднем от всей добавленной стоимости 21%, добычи полезных ископаемых – в среднем 3,3% и операциям с недвижимостью – 7,9%. Самая низкая доля в добавленной стоимости по с/х продукции-10% от всей добавленной стоимости.
Таким образом, использование иерархического метода кластерного анализа позволило выделить группы субъектов федеральных округов, сходных по структуре добавленной стоимости.
Заключение.
Сегодня кластерный анализ является одним из наиболее эффективных инструментов обработки больших объемов данных и используется повсеместно, где применяется вычислительная техника.
Методы кластерного анализа являются очень удобным средством для упрощения восприятия большого количества разрозненных данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа
Алгоритм кластеризации разбивает набор данных на группы, что позволяет вам сделать определенные выводы или заключения относительно объектов каждой группы. В отличие от регрессии или классификации, результатом кластерного анализа не является какое-либо одно результирующее значение, автоматически подразумевающее однозначный вывод. Вместо этого мы получаем возможность анализировать группы данных и делать самостоятельные заключения о тенденциях внутри каждой группы. В нашем примере кластерный анализ с применение м метода Уорда позволили разделить субъекты по имеющимся данным на ; класса (группы), тем не менее, конкретные заключения об особенностях каждого класса были сделаны нами без использования каких-либо готовых выводов. С этой точки зрения, использование кластерной модели связано с определенными трудностями (представьте, что было бы, если бы мы выбрали слишком большое число кластеров для нашей модели), но с другой стороны, мы смогли извлечь из результатов нашего кластерного анализа достаточно полезную и любопытную информацию, которую мы не смогли бы получить с помощью других рассмотренных методов.
Информация о работе Кластерный анализ в программе Statistica