Автор работы: Пользователь скрыл имя, 15 Сентября 2013 в 17:31, реферат
Кластерный анализ - это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается неким набором переменных.
В связи с многоплановостью и сложностью изучаемых объектов и процессов, их представляющих, данные о них носят многомерный и разнотипный характер. В процессе кластеризации участвуют следующие признаки:
потребление молока и молочных продуктов на душу населения (Y2);
производство хлеба и хлебобулочных изделий на душу населения в год (X10);
Кластерный анализ
Кластерный анализ - это совокупность
методов, позволяющих
В связи с многоплановостью и сложностью изучаемых объектов и процессов, их представляющих, данные о них носят многомерный и разнотипный характер. В процессе кластеризации участвуют следующие признаки:
Наиболее трудным и наименее формализованным в процессе кластеризации является определение понятия однородности объектов. Допустим, в нашем случае данное понятие задается введением правила вычисления расстояний между любой парой исследуемых объектов. Обратимся к обычному евклидову расстоянию. Естественное (с геометрической точки зрения) евклидово пространство будет бессмысленным (с точки зрения содержательной интерпретации), так как признаки измерены в разных единицах, кроме того оказывает влияние размерность единиц наблюдения. Поэтому пронормируем каждый признак.
В разбиении на кластеры
будут участвовать все
При использовании метода «ближнего соседа» появляется цепочечный эффект, не позволяющий определить точное число кластеров. Этот алгоритм не самый удачны для рассмотрения разбиения регионов на группы (рис. 1).
Рисунок 1 – Дендрограмма разбиения регионов по методу «ближнего соседа»
Используя метод дальнего соседа, можно выделить 2 кластера (рисунок 2), но желаемая четкость в разбиении отсутствует.
Рисунок 2 – Дендрограмма разбиения по методу «дальнего соседа»
При использовании метода средней связи (рисунок 3) полученные результаты отчасти напоминают первое разбиение.
Рисунок 3 – Дендрограмма разбиения по методу «средней связи»
Метод Уорда наиболее наглядно представляет разделение исследуемой совокупности регионов на кластеры. Графическое изображение результатов этого метода позволяет сделать вывод о том, что всю совокупность наблюдений можно разбить на 2 кластера (рисунок 4).
Рисунок 4 – Дендрограмма разбиения регионов методом Варда
Окончательную кластеризацию проведем методом k-средних. Подобное разбиение оказалось оптимальным, так как практически отсутствуют совпадения средних нормированных значений признаков по кластерам (рисунок 5).
Рисунок 5 – Средние нормированные значения по кластерам
На основе полученных результатов составим таблицу средних значений переменных для всех участвующих наблюдений.
Таблица 1 – Средние значения переменных для кластеров
Кластер 1 |
Кластер 2 | |
Количество наблюдений |
36 |
36 |
Y2 |
182,333 |
245,361 |
Х10 |
55,459 |
59,018 |
Х14 |
41,908 |
36,831 |
Х44 |
2,3305 |
0,919 |
Х49 |
1,551 |
1,125 |
Х3 |
9,455 |
19,097 |
Х26 |
137,669 |
111,213 |
Регионы между кластерами распределились одинаково. Для них характерны наибольшие средние значения потребление молока и молочных продуктов на душу населения (Y2); производства хлеба и хлебобулочных изделий на душу населения в год (X10), наличие собственных легковых автомобилей на 1000 человек населения (X26). Однако средние значения удельного веса картофеля выращенного фермерскими хозяйствами (X44) во 2-ом кластере оказались наименьшими.
Регионы данных кластеров можно считать наиболее развитыми в сфере производства сельскохозяйственной продукции.
Таким образом, в ходе исследования можно сделать вывод о том, что по уровню развития сельского хозяйства регионы имеют высокий уровень развития сельского хозяйства.