Кластерный анализ

Автор работы: Пользователь скрыл имя, 15 Сентября 2013 в 17:31, реферат

Краткое описание

Кластерный анализ - это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается неким набором переменных.
В связи с многоплановостью и сложностью изучаемых объектов и процессов, их представляющих, данные о них носят многомерный и разнотипный характер. В процессе кластеризации участвуют следующие признаки:
 потребление молока и молочных продуктов на душу населения (Y2);
 производство хлеба и хлебобулочных изделий на душу населения в год (X10);

Вложенные файлы: 1 файл

Кластр..docx

— 173.59 Кб (Скачать файл)

Кластерный анализ

         Кластерный анализ  - это совокупность  методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается неким набором переменных.

В связи с многоплановостью и сложностью изучаемых объектов и процессов, их представляющих, данные о них носят многомерный и разнотипный характер. В процессе кластеризации участвуют следующие признаки:

  • потребление молока и молочных продуктов на душу населения (Y2);
  • производство хлеба и хлебобулочных изделий на душу населения в год (X10);
  • производство цельномолочной продукции на душу населения в год (X14);
  • удельный вес картофеля выращенного фермерскими хозяйствами (X44);
  • соотношение расходов населения прожиточному минимуму (X49);
  • удельный вес занятых в сельском хозяйстве в общей численности занятого населения (X3);
  • наличие собственных легковых автомобилей на 1000 человек населения (X26);

Наиболее трудным и  наименее формализованным в процессе кластеризации является определение понятия однородности объектов. Допустим, в нашем случае данное понятие задается введением правила вычисления расстояний между любой парой исследуемых объектов. Обратимся к обычному евклидову расстоянию. Естественное (с геометрической точки зрения) евклидово пространство будет бессмысленным (с точки зрения содержательной интерпретации), так как признаки измерены в разных единицах, кроме того оказывает влияние размерность единиц наблюдения. Поэтому пронормируем каждый признак.

В разбиении на кластеры будут участвовать все признаки. Осуществим реализацию иерархического кластерного анализа, построим дендрограммы разбиения совокупности регионов на кластеры различными методами.

При использовании метода «ближнего соседа» появляется цепочечный эффект, не позволяющий определить точное число кластеров. Этот алгоритм не самый удачны для рассмотрения разбиения регионов на группы (рис. 1).

 

Рисунок 1 – Дендрограмма разбиения регионов по методу «ближнего соседа»

 

Используя метод дальнего соседа, можно выделить 2 кластера (рисунок 2), но желаемая четкость в разбиении отсутствует.

 

Рисунок 2 – Дендрограмма разбиения по методу «дальнего соседа»

При использовании метода средней связи (рисунок 3) полученные результаты отчасти напоминают первое разбиение.

 

 

Рисунок 3 – Дендрограмма разбиения по методу «средней связи»

 

Метод Уорда наиболее наглядно представляет разделение исследуемой  совокупности регионов на кластеры. Графическое  изображение результатов этого  метода позволяет сделать вывод  о том, что всю совокупность наблюдений можно разбить на 2 кластера (рисунок 4).

 

Рисунок 4 – Дендрограмма разбиения регионов методом Варда

Окончательную кластеризацию  проведем методом k-средних. Подобное разбиение оказалось оптимальным, так как практически отсутствуют совпадения средних нормированных значений признаков по кластерам (рисунок 5).

 

Рисунок 5 – Средние нормированные  значения по кластерам

 

На основе полученных результатов составим таблицу средних значений переменных для всех участвующих наблюдений.

Таблица 1 – Средние значения переменных для кластеров

 

Кластер 1

Кластер 2

Количество наблюдений

36

36

Y2

182,333

245,361

Х10

55,459

59,018

Х14

41,908

36,831

Х44

2,3305

0,919

Х49

1,551

1,125

Х3

9,455

19,097

Х26

137,669

111,213


 

      Регионы между кластерами распределились одинаково. Для них характерны наибольшие средние значения потребление молока и молочных продуктов на душу населения (Y2); производства хлеба и хлебобулочных изделий на душу населения в год (X10), наличие собственных легковых автомобилей на 1000 человек населения (X26). Однако средние значения удельного веса картофеля выращенного фермерскими хозяйствами (X44) во 2-ом кластере оказались наименьшими.

     Регионы данных кластеров можно считать наиболее развитыми в сфере производства сельскохозяйственной продукции.

Таким образом, в ходе исследования можно сделать вывод о том, что по уровню развития сельского  хозяйства регионы  имеют высокий уровень развития сельского хозяйства.

 


Информация о работе Кластерный анализ