Многомерный анализ организации жизненного пространства региона
Курсовая работа, 16 Июня 2013, автор: пользователь скрыл имя
Краткое описание
В статистических исследованиях группировка первичных данных является основным приемом решения задачи классификации, а поэтому основой всей дальнейшей работы с собранной информацией. Из множества признаков, описывающих объект, отбирается один, наиболее информативный с точки зрения исследователя, и производится группировка в соответствии со значениями данного признака. Однако при наличии большого количества признаков построение группировок усложняется настолько, что не представляется целесообразным, поэтому задача классификации может быть решена методами кластерного анализа.
Вложенные файлы: 1 файл
3 Многомерный анализ организации жизненного пространства региона.doc
— 357.00 Кб (Скачать файл)Проанализировав выборки на основании расстояния Махалонобиса, следует выделить некорректно отнесенные районы: Ельниковский, Старошайговский, Темниковский и Теньгушевский. После их удаления была получена выборка, состоящая из 19 районов РМ: 10 районов находятся в первой группе, 7 - во второй, 2 - в третьей. Классификационная матрица, полученная после корректировки, представлена в таблице 3.6 и показывает, что общий коэффициент корректности равен 100%.
Таблица 3.6 - Классификационная матрица (после корректировки выборки)
Матрица классификации Строки: наблюдаемые наблюдения Столбцы: предсказанные наблюдения | ||||
Процент правил. |
G_1:1 p=,43478 |
G_2:2 p=,39130 |
G_3:3 p=,17391 | |
G_1:1 |
100 |
10 |
0 |
0 |
G_2:2 |
100 |
0 |
7 |
0 |
G_3:3 |
100 |
0 |
0 |
2 |
Всего |
100 |
10 |
7 |
2 |
Исключение ошибок из выборки не привело к изменению характеристик дискриминации. Результаты представлены в таблице 3.7
Таблица 3.7 - Переменные, включенные в модель и их характеристика (после корректировки выборки)
Итоги анализа дискриминантных функций (да.sta) Шаг 4, N перем. в модели: 4; группир.: КЛАСС (3 гр.) Лямбда Уилкса: ,17311 прибл. F (8,34)=5,9646 p< ,0001 | ||||||
Уилкса лямбда |
Частная лямбда |
F-исключ (2,17) |
p-уров. |
Толер. |
1-толер. (R-кв.) | |
Y2 |
0,519 |
0,333 |
17,009 |
8,77E-05 |
0,395 |
0,604 |
Y8 |
0,276 |
0,625 |
5,090 |
0,018 |
0,438 |
0,561 |
Y9 |
0,291 |
0,594 |
5,808 |
0,011 |
0,495 |
0,504 |
Y1 |
0,276 |
0,626 |
5,067 |
0,018 |
0,526 |
0,473 |
Проверив переменные и отобрав из них наиболее значимые необходимо определить канонические дискриминантные функции и выяснить, насколько хорошими дискриминаторами являются полученные функции, то есть на данном этапе решается вопрос об их статистической значимости. Проверка значимости приведена в таблице 3.8.
Таблица 3.8 - Проверка значимости дискриминантных функций
Функция |
Собств. знач. |
Канонич.R |
Лямбда Уилкса |
Хи-квад. |
ст.св. |
p-уров. |
1 |
2,618 |
0,850 |
0,173 |
32,445 |
8 |
7,79E-05 |
2 |
0,596 |
0,611 |
0,626 |
8,655 |
3 |
0,034 |
Проанализировав собственные значения функций, их величина связана с дискриминирующими возможностями каждой функции: чем больше собственное значение, тем лучше различение групп, которое может быть получено при использовании той или иной функции. Поскольку собственные значения располагаются в порядке убывания их величин, первая функция обладает наибольшими дискриминантными возможностями, вторая обеспечивает максимальное различение после первой и т.д. Фактически числа, представляющие собой собственные значения ни о чем не говорят. Их нельзя интерпретировать непосредственно. Они лишь определяют порядок значимости дискриминантных функций.
Для оценки реальной полезности функций часто используются коэффициенты канонической корреляции. Они являются мерой связи и показывают степень зависимости между выделенными группами и дискриминантными переменными. Чем больше величина коэффициента, тем лучше дискриминантные возможности она имеет. Анализ коэффициентов канонической корреляции исследуемых дискриминантных функций указывает на наличие сильной взаимосвязи между классами и этими функциями. Более мощными дискриминатором является функция 1, т. к. значение коэффициента у нее наибольшее - 0,851, функция 2 так же характеризуются хорошими дискриминантными возможностями, поскольку ее коэффициент канонической корреляции тоже довольно высок - 0,611.
Проверка статистической значимости полученных дискриминантных функций осуществляется на основании остаточной дискриминантной способности системы до и после определения каждой функции. С этой целью рассчитываются значения λ-статистики Уилкса и статистики хи-квадрата (таблица 3.9), на основании которых определяется уровень значимости. Так как расчетное значение критерия χрасч 2 для двух функций больше соответствующих табличных значений, можно сделать вывод о том, что эти функции являются статистически значимыми.
Таблица 3.9 - Коэффициенты дискриминантных функций
Переменные |
Стандартизированные коэффициенты |
Структурные коэффициенты | ||
Ф 1 |
Ф 2 |
Ф 1 |
Ф 2 | |
Y2 |
1,456 |
0,632 |
0,605 |
0,270 |
Y8 |
-1,086 |
-0,036 |
0,044 |
-0,013 |
Y9 |
-0,894 |
0,801 |
-0,082 |
0,251 |
Y1 |
-0,375 |
1,274 |
-0,247 |
0,491 |
В таблице 3.12 представлены коэффициенты в стандартной форме, они показывают относительный вклад переменной. Видно, что для функции 1 максимален относительный вклад переменной У2 – среднемесячная номинальная заработная плата работников организаций, р, а для функции 2 максимальны вклады У1 – уровень зарегистрированной безработицы по районам РМ,% и У9 – заболеваемость на 1000 человек населения.
Использование данного
подхода к определению
В ходе исследования было установлено отсутствие мультиколлинеарности между показателями, характеризующими состояние организации жизненного пространства в республике, для проверки проведенной интерпретации канонических дискриминантных функций были рассчитаны полные структурные коэффициенты, так же представленные в таблице 3.12. Их анализ дает схожие результаты. При изучении структурных коэффициентов, было выявлено, что первая дискриминантная функция наиболее тесно связана с показателем У2 - среднемесячная номинальная заработная плата работников организаций, р., а вторая с У1 – уровень зарегистрированной безработицы по районам РМ,% и У9 – заболеваемость на 1000 человек населения.
Поскольку выявлено две дискриминантых функции, положение отдельных регионов в дискриминантном пространстве можно изобразить графически. На рисунке 3.1 показано как располагаются в пространстве районы Республики Мордовия, входящие в состав выборок. На графике видно, что группы вполне различимы, нет явных перекрытий объектов, что свидетельствует о хорошей дискриминации.
Рисунок 3.1 - Распределение
регионов обучающей выборки дискриминант
Таким образом, на основании проведенного анализа можно сделать вывод о том, что полученные функции имеют смысл и могут быть использованы для выявления различий между группами. Следовательно, на основании этих функций можно классифицировать районы Республики Мордовия по уровню организации жизненного пространства в 2007 г.
В результате анализа, так же было получено разбиение всей совокупности изучаемых объектов на 3 группы: в 1 группу с низким уровнем организации жизненного пространства вошло 11 районов, в группу с высоким уровнем организации жизненного пространства вошло 7 районов республики, а в третью группу со средним уровнем организации жизненного пространства- 5 районов.
В целом приведенные результаты свидетельствуют о высокой степени коррелирования между обобщенными оценками, полученными с помощью кластерного анализа и дискриминантного, что позволяет считать их взаимодополняющими.
Приложение Б
(обязательное)
Таблица Б.1 – Исходные данные для кластерного анализа районов РМ в 2000 г
X1 |
X2 |
X3 |
X4 |
X5 |
X6 |
X7 |
X8 |
X9 | |
Ардатовский |
4,3 |
375 |
19,1 |
84 |
42 |
110 |
39 |
884 |
887,5 |
Атюрьевский |
5,4 |
325 |
20,9 |
87 |
27 |
128 |
20 |
1097 |
1021,3 |
Атяшевский |
5,1 |
361 |
22,5 |
76 |
37 |
126 |
31 |
905 |
1009,2 |
Большеберезниковский |
4,8 |
400 |
25 |
59 |
26 |
129 |
20 |
952 |
884,2 |
Большеигнатовский |
5,6 |
355 |
21,4 |
72 |
24 |
124 |
17 |
1208 |
1254,6 |
Дубенский |
4,4 |
338 |
22,4 |
49 |
22 |
123 |
19 |
1000 |
944,3 |
Ельниковский |
3 |
351 |
20,6 |
84 |
33 |
119 |
19 |
1192 |
930 |
Зубово-Полянский |
5,1 |
390 |
16,7 |
75 |
60 |
66 |
43 |
953 |
702,8 |
Инсарский |
3,3 |
348 |
21,6 |
67 |
28 |
121 |
19 |
1624 |
923,2 |
Ичалковский |
4 |
396 |
22 |
68 |
34 |
121 |
30 |
1558 |
1148,1 |
Кадошкинский |
3,2 |
418 |
18,3 |
77 |
14 |
118 |
13 |
1604 |
988,3 |
Ковылкинский |
3,8 |
316 |
19,7 |
49 |
64 |
107 |
46 |
1734 |
1080,7 |
Кочкуровский |
3,1 |
347 |
22,9 |
58 |
17 |
130 |
15 |
2080 |
1175 |
Краснослободский |
3,2 |
390 |
21,1 |
74 |
33 |
104 |
31 |
1214 |
919 |
Лямбирский |
6,6 |
552 |
19,2 |
74 |
29 |
75 |
22 |
1225 |
1206,2 |
Ромодановский |
2,3 |
409 |
22,3 |
86 |
25 |
123 |
21 |
1991 |
789,4 |
Рузаевский |
5,1 |
437 |
21,8 |
46 |
37 |
82 |
34 |
2026 |
1227,1 |
Старошайговский |
3,3 |
389 |
21,6 |
69 |
35 |
110 |
30 |
1395 |
777,3 |
Темниковский |
5,1 |
365 |
21,8 |
73 |
41 |
120 |
28 |
1211 |
731,3 |
Теньгушевский |
4,7 |
460 |
21,7 |
76 |
24 |
116 |
18 |
929 |
845,1 |
Торбеевский |
4,2 |
562 |
20,3 |
90 |
37 |
108 |
25 |
1203 |
940,8 |
Чамзинский |
5,4 |
575 |
20,2 |
78 |
28 |
111 |
24 |
1579 |
1074,4 |
г.Саранск |
3,7 |
699 |
18,7 |
109 |
64 |
144 |
50 |
1642 |
1524,8 |
Рисунок Б.1- Дендрограмма объединения районов РМ в 2000 г
Таблица Б.2 – Районы, вошедшие в кластеры и расстояние между ними
Район |
КЛАСТЕР |
РАССТОЯН | |
Ардатовский |
1 |
2 |
0,77 |
Атюрьевский |
2 |
1 |
0,53 |
Атяшевский |
3 |
1 |
0,42 |
Большеберезниковский |
4 |
1 |
0,62 |
Большеигнатовский |
5 |
1 |
0,62 |
Дубенский |
6 |
1 |
0,57 |
Ельниковский |
7 |
3 |
0,50 |
Зубово-Полянский |
8 |
2 |
1,26 |
Инсарский |
9 |
3 |
0,23 |
Ичалковский |
10 |
3 |
0,55 |
Кадошкинский |
11 |
3 |
0,74 |
Ковывлкинский |
12 |
2 |
1,13 |
Кочкуровский |
13 |
3 |
0,85 |
Краснослободский |
14 |
3 |
0,53 |
Лямбирьский |
15 |
2 |
1,01 |
Ромодановский |
16 |
3 |
0,66 |
Рузаевский |
17 |
2 |
1,11 |
Старошайговский |
18 |
3 |
0,51 |
Темниковский |
19 |
1 |
0,57 |
Теньгушевский |
20 |
1 |
0,48 |
Торбеевский |
21 |
2 |
0,71 |
Чамзинский |
22 |
2 |
0,73 |
г.Саранск |
23 |
2 |
1,73 |
F |
14,70 |