Кластерный анализ

Автор работы: Пользователь скрыл имя, 26 Ноября 2014 в 16:35, реферат

Краткое описание

При анализе и прогнозировании социально-экономических явлений исследователь довольно часто сталкивается с многомерностью их описания. Это происходит при решении задачи сегментирования рынка, построении типологии стран по достаточно большому числу показателей, прогнозирования конъюнктуры рынка отдельных товаров, изучении и прогнозировании экономической депрессии и многих других проблем.

Содержание

Введение
Задача кластерного анализа
Методы кластерного анализа
Метод ближайшего соседа или метод одиночной связи
Метод наиболее удаленных соседей или метод полной связи

Вложенные файлы: 1 файл

КУРСАЧ.docx

— 84.57 Кб (Скачать файл)

х23 - Индексы потребительских цен (декабрь к декабрю предыдущего года; в процентах)

 

 

Кластерный итог:

Cluster

Members

Percent

1

2

25,00

2

4

50,00

3

2

25,00


 

 

Вывод: судя по данным  кластерного итога наибольший процент приведенных данных располагается во 2 группе, что составляет 50 %, от общей совокупности данных признаков. В 1 и 3 группах процентное соотношение составляет по 25% на каждую группу.

Centroids

Cluster

x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

x11

x12

1

892,9

66,65

7,85

99,7

21,9

21,15

2783,65

901,35

22,5

17835,0

140,0

87,5

2

287,7

70,625

7,875

102,5

15,875

24,6

3267,07

826,425

3,5

5969,5

46,5

114,75

3

1648,4

67,95

9,4

105,25

16,1

21,3

1908,65

767,6

20,0

41624,0

175,0

404,5


 

 

Cluster

x13

x14

x15

x16

x17

x18

x19

x20

x21

x22

1

261562,

20260,0

2665,0

32074,5

19703,5

1535,25

44225,5

8064,5

97,38

98308,5

2

369431,

9399,25

422,0

9848,25

4947,0

695,0

2819,25

3652,75

116,373

48101,3

3

190746,

53590,5

1288,5

42228,5

19080,0

2721,3

75468,5

17477,0

99,395

172946,


 

 

Cluster

x23

1

107,68

2

109,568

3

107,555


 

 

Вывод: по данным таблицы численность населения составляющая наибольшее значение, равное 1648,4 тыс.чел. находится в 3 группе, самая наименьшая численность, равная 287,7 тыс.чел. располагается во 2 группе. Незначительно отличается уровень экономической активности населения, но все же самый высокий уровень экономической активности=70,625 % находится во 2 группе. Наименьший показатель, расположенный 1 группе =66,65%.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Метод наиболее удаленных соседей или метод полной связи

Множество методов иерархического кластерного анализа различается не только используемыми мерами сходства (различия), но и алгоритмами классификации. Из них наиболее распространен метод наиболее удаленных соседей или метод полной связи.

Пусть требуется провести классификацию заданного множества объектов методом наиболее удаленных соседей. Расстояние между классами определяется как расстояние между наиболее отдаленными представителями; объединяются те кластеры расстояние между самыми отдаленными представителями которых наименьшее.

Перед началом работы алгоритма рассчитывается матрица расстояний между объектами. На каждом шаге в матрице расстояний ищется минимальное значение, соответствующее расстоянию между двумя наиболее близкими кластерами. Найденные кластеры объединяются, образуя новый кластер. Эта процедура повторяется до тех пор, пока не будут объединены все кластеры. Допустим, задана следующая матрица расстояний:

 

0

2.06

4.03

6.32

2.06

0

4.12

2.25

4.03

4.12

0

3.50

6.32

2.25

3.50

0


 

Решение:

Шаг 1. На первом шаге, когда каждый объект представляет собой отдельный кластер. Согласно критерию классификации, объединение происходит между кластерами, расстояние между, которыми наименьшее. Т.о. на этом шаге объединяются кластеры: кластеры и . Расстояние объединения – . Необходимо произвести перерасчет матрицы расстояний с учетом нового кластера (напомним, что расстояние между классами определяется как расстояние между наиболее отдаленными представителями):

 

0

4.12

6.32

4.12

0

3.50

6.32

3.50

0


 

Шаг 2. Кластеры на данном шаге: и . Согласно новой матрицы расстояний, кластеры и наиболее близкие. Расстояние объединения – . Необходимо произвести перерасчет матрицы расстояний с учетом нового кластера:

 

0

6.32

6.32

0


 

Шаг 3. Кластеры на данном шаге: и . Расстояние между кластерами равно – это расстояние между и объектом. Образование кластеров закончено. Результат работы алгоритма представлен в виде дендрограммы:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Метод  наиболее удаленных соседей

Переменные данные:

 х1 - Численность населения (тыс.чел.)

х2 - Уровень экономической активности населения (в %)

х3 - Уровень безработицы населения (в среднем за год; в % )

х4 - Реальные денежные доходы населения (в месяц; рублей)

х5 - Численность населения с денежными доходами ниже величины прожиточного минимума (в % от общей  

        числ.населения субъекта)

х6 - Общая площадь жилых помещений, в общем на одного жителя (на конец года; квадратных метров)

х7 - Стоимость предоставленных  населению ЖКХ услуг (на 1 человека в месяц; рублей)

х8 - Заболеваемость на 1000 человек населения (зарегистрировано больных с диагнозом, установленным впервые в

       жизни)

 х9 - Число спортивных сооружений (на конец года)

х10 - Число зарегистрированных преступлений ( тыс.чел. )

х11 - Выбросы загрязняющих веществ в атмосферный воздух (тысяч тонн)

х12 - Сброс сточных вод в поверхостные охраняемые объекты (миллион кубических метров)

х13 - ВРП на душу населения (рублей)

х14 - Число предприятий и организаций (на конец года)

х15 - Число крестьянских (фермерских) хозяйств (на конец года)

х16 - Объем отгруженных товаров собственного производства (в действующих ценах; миллионов рублей)

х17 - Продукция сельского хозяйства (в хозяйствах всех категорий; в фактических ценах; миллионов рублей)

х18 - Общий строительный объем зданий жилого и нежилого помещения (тысяч кубических метров)

х19 - Грузооборот транспорта организаций всех видов экономической деятельности (миллионов тонно-километров)

х20 - Объем услуг связи (в фактически действовавших ценах, рублей)

х21 - Оборот розничной торговли на душу населения (в фактически действовавших ценах, млн. рублей)

х22 - Инвестиции в основной капитал (в фактически действовавших ценах; миллионов рублей)

х23 - Индексы потребительских цен (декабрь к декабрю предыдущего года; в процентах)

Кластерный итог:

Cluster

Members

Percent

1

4

50,00

2

3

37,50

3

1

12,50


 

 

     Вывод: данная процедура создала 3 кластера (группы) из 8 поставленных наблюдений. Группы являются совокупностью наблюдений с аналогичными характеристиками. Анализируя кластерный итог ,можно сделать вывод о том что в 1 группе число участников наибольшее, что в процентном соотношении составляет 50%. 

 

Cluster

x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

x11

1

1270,65

67,3

8,625

102,475

19,0

21,225

2346,15

834,475

21,25

29729,5

157,5

2

218,033

70,5333

7,4

103,967

17,4667

24,9333

3577,57

793,633

1,66667

4340,0

28,3333

3

496,7

70,9

9,3

98,1

11,1

23,6

2335,6

924,8

9,0

10858,0

101,0


 

 

Cluster

x12

x13

x14

x15

x16

x17

x18

x19

x20

x21

1

246,0

226154,

36925,3

1976,75

37151,5

19391,8

2128,28

59847,0

12770,8

98,3875

2

75,0

237501,

6997,33

345,333

8492,67

4044,0

398,733

1741,33

2429,33

94,4667

3

234,0

765222,

16605,0

652,0

13915,0

7656,0

1583,8

6053,0

7323,0

182,09


 

 

Cluster

x22

x23

1

135627,

107,617

2

20515,0

109,42

3

130860,

110,01


 

 

     Вывод: судя по данным таблицы наибольшая  численность населения  (х1) находится в 1 группе, что составляет 1270,65 тыс.чел., в то же время самая наименьшая часть населения (х2) с численностью 218,033 тыс.чел. находится во второй группе. В то же время самое наибольшее значение Валового регионального продукта на душу населения находится в 3 группе,что составляет 765222 рублей, самое наименьшее значение располагается в 1 группе = 226154 рублей.  Значения общей площади жилых помещений в порядке убывания располагается таким образом что самая наибольшая площадь квадратных метров располагается во 2 группе, что составляет 24,93 кв.м., в третьей группе площать=23,6 кв.м., самая наименьшая площадь жилых помещений =21,225кв.м.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Метод ближнего (одиночного ) соседа

Переменные данные:

 х1 - Численность населения (тыс.чел.)

х2 - Уровень экономической активности населения (в %)

х3 - Уровень безработицы населения (в среднем за год; в % )

х4 - Реальные денежные доходы населения (в месяц; рублей)

х5 - Численность населения с денежными доходами ниже величины прожиточного минимума (в % от общей  

        числ.населения субъекта)

х6 - Общая площадь жилых помещений, в общем на одного жителя (на конец года; квадратных метров)

х7 - Стоимость предоставленных  населению ЖКХ услуг (на 1 человека в месяц; рублей)

х8 - Заболеваемость на 1000 человек населения (зарегистрировано больных с диагнозом, установленным впервые в

       жизни)

 х9 - Число спортивных сооружений (на конец года)

х10 - Число зарегистрированных преступлений ( тыс.чел. )

х11 - Выбросы загрязняющих веществ в атмосферный воздух (тысяч тонн)

х12 - Сброс сточных вод в поверхостные охраняемые объекты (миллион кубических метров)

х13 - ВРП на душу населения (рублей)

х14 - Число предприятий и организаций (на конец года)

х15 - Число крестьянских (фермерских) хозяйств (на конец года)

х16 - Объем отгруженных товаров собственного производства (в действующих ценах; миллионов рублей)

х17 - Продукция сельского хозяйства (в хозяйствах всех категорий; в фактических ценах; миллионов рублей)

х18 - Общий строительный объем зданий жилого и нежилого помещения (тысяч кубических метров)

х19 - Грузооборот транспорта организаций всех видов экономической деятельности (миллионов тонно-километров)

Информация о работе Кластерный анализ