Автор работы: Пользователь скрыл имя, 16 Июня 2013 в 11:55, курсовая работа
В статистических исследованиях группировка первичных данных является основным приемом решения задачи классификации, а поэтому основой всей дальнейшей работы с собранной информацией. Из множества признаков, описывающих объект, отбирается один, наиболее информативный с точки зрения исследователя, и производится группировка в соответствии со значениями данного признака. Однако при наличии большого количества признаков построение группировок усложняется настолько, что не представляется целесообразным, поэтому задача классификации может быть решена методами кластерного анализа.
Проанализировав выборки на основании расстояния Махалонобиса, следует выделить некорректно отнесенные районы: Ельниковский, Старошайговский, Темниковский и Теньгушевский. После их удаления была получена выборка, состоящая из 19 районов РМ: 10 районов находятся в первой группе, 7 - во второй, 2 - в третьей. Классификационная матрица, полученная после корректировки, представлена в таблице 3.6 и показывает, что общий коэффициент корректности равен 100%.
Таблица 3.6 - Классификационная матрица (после корректировки выборки)
Матрица классификации Строки: наблюдаемые наблюдения Столбцы: предсказанные наблюдения | ||||
Процент правил. |
G_1:1 p=,43478 |
G_2:2 p=,39130 |
G_3:3 p=,17391 | |
G_1:1 |
100 |
10 |
0 |
0 |
G_2:2 |
100 |
0 |
7 |
0 |
G_3:3 |
100 |
0 |
0 |
2 |
Всего |
100 |
10 |
7 |
2 |
Исключение ошибок из выборки не привело к изменению характеристик дискриминации. Результаты представлены в таблице 3.7
Таблица 3.7 - Переменные, включенные в модель и их характеристика (после корректировки выборки)
Итоги анализа дискриминантных функций (да.sta) Шаг 4, N перем. в модели: 4; группир.: КЛАСС (3 гр.) Лямбда Уилкса: ,17311 прибл. F (8,34)=5,9646 p< ,0001 | ||||||
Уилкса лямбда |
Частная лямбда |
F-исключ (2,17) |
p-уров. |
Толер. |
1-толер. (R-кв.) | |
Y2 |
0,519 |
0,333 |
17,009 |
8,77E-05 |
0,395 |
0,604 |
Y8 |
0,276 |
0,625 |
5,090 |
0,018 |
0,438 |
0,561 |
Y9 |
0,291 |
0,594 |
5,808 |
0,011 |
0,495 |
0,504 |
Y1 |
0,276 |
0,626 |
5,067 |
0,018 |
0,526 |
0,473 |
Проверив переменные и отобрав из них наиболее значимые необходимо определить канонические дискриминантные функции и выяснить, насколько хорошими дискриминаторами являются полученные функции, то есть на данном этапе решается вопрос об их статистической значимости. Проверка значимости приведена в таблице 3.8.
Таблица 3.8 - Проверка значимости дискриминантных функций
Функция |
Собств. знач. |
Канонич.R |
Лямбда Уилкса |
Хи-квад. |
ст.св. |
p-уров. |
1 |
2,618 |
0,850 |
0,173 |
32,445 |
8 |
7,79E-05 |
2 |
0,596 |
0,611 |
0,626 |
8,655 |
3 |
0,034 |
Проанализировав собственные значения функций, их величина связана с дискриминирующими возможностями каждой функции: чем больше собственное значение, тем лучше различение групп, которое может быть получено при использовании той или иной функции. Поскольку собственные значения располагаются в порядке убывания их величин, первая функция обладает наибольшими дискриминантными возможностями, вторая обеспечивает максимальное различение после первой и т.д. Фактически числа, представляющие собой собственные значения ни о чем не говорят. Их нельзя интерпретировать непосредственно. Они лишь определяют порядок значимости дискриминантных функций.
Для оценки реальной полезности функций часто используются коэффициенты канонической корреляции. Они являются мерой связи и показывают степень зависимости между выделенными группами и дискриминантными переменными. Чем больше величина коэффициента, тем лучше дискриминантные возможности она имеет. Анализ коэффициентов канонической корреляции исследуемых дискриминантных функций указывает на наличие сильной взаимосвязи между классами и этими функциями. Более мощными дискриминатором является функция 1, т. к. значение коэффициента у нее наибольшее - 0,851, функция 2 так же характеризуются хорошими дискриминантными возможностями, поскольку ее коэффициент канонической корреляции тоже довольно высок - 0,611.
Проверка статистической значимости полученных дискриминантных функций осуществляется на основании остаточной дискриминантной способности системы до и после определения каждой функции. С этой целью рассчитываются значения λ-статистики Уилкса и статистики хи-квадрата (таблица 3.9), на основании которых определяется уровень значимости. Так как расчетное значение критерия χрасч 2 для двух функций больше соответствующих табличных значений, можно сделать вывод о том, что эти функции являются статистически значимыми.
Таблица 3.9 - Коэффициенты дискриминантных функций
Переменные |
Стандартизированные коэффициенты |
Структурные коэффициенты | ||
Ф 1 |
Ф 2 |
Ф 1 |
Ф 2 | |
Y2 |
1,456 |
0,632 |
0,605 |
0,270 |
Y8 |
-1,086 |
-0,036 |
0,044 |
-0,013 |
Y9 |
-0,894 |
0,801 |
-0,082 |
0,251 |
Y1 |
-0,375 |
1,274 |
-0,247 |
0,491 |
В таблице 3.12 представлены коэффициенты в стандартной форме, они показывают относительный вклад переменной. Видно, что для функции 1 максимален относительный вклад переменной У2 – среднемесячная номинальная заработная плата работников организаций, р, а для функции 2 максимальны вклады У1 – уровень зарегистрированной безработицы по районам РМ,% и У9 – заболеваемость на 1000 человек населения.
Использование данного
подхода к определению
В ходе исследования было установлено отсутствие мультиколлинеарности между показателями, характеризующими состояние организации жизненного пространства в республике, для проверки проведенной интерпретации канонических дискриминантных функций были рассчитаны полные структурные коэффициенты, так же представленные в таблице 3.12. Их анализ дает схожие результаты. При изучении структурных коэффициентов, было выявлено, что первая дискриминантная функция наиболее тесно связана с показателем У2 - среднемесячная номинальная заработная плата работников организаций, р., а вторая с У1 – уровень зарегистрированной безработицы по районам РМ,% и У9 – заболеваемость на 1000 человек населения.
Поскольку выявлено две дискриминантых функции, положение отдельных регионов в дискриминантном пространстве можно изобразить графически. На рисунке 3.1 показано как располагаются в пространстве районы Республики Мордовия, входящие в состав выборок. На графике видно, что группы вполне различимы, нет явных перекрытий объектов, что свидетельствует о хорошей дискриминации.
Рисунок 3.1 - Распределение
регионов обучающей выборки дискриминант
Таким образом, на основании проведенного анализа можно сделать вывод о том, что полученные функции имеют смысл и могут быть использованы для выявления различий между группами. Следовательно, на основании этих функций можно классифицировать районы Республики Мордовия по уровню организации жизненного пространства в 2007 г.
В результате анализа, так же было получено разбиение всей совокупности изучаемых объектов на 3 группы: в 1 группу с низким уровнем организации жизненного пространства вошло 11 районов, в группу с высоким уровнем организации жизненного пространства вошло 7 районов республики, а в третью группу со средним уровнем организации жизненного пространства- 5 районов.
В целом приведенные результаты свидетельствуют о высокой степени коррелирования между обобщенными оценками, полученными с помощью кластерного анализа и дискриминантного, что позволяет считать их взаимодополняющими.
Приложение Б
(обязательное)
Таблица Б.1 – Исходные данные для кластерного анализа районов РМ в 2000 г
X1 |
X2 |
X3 |
X4 |
X5 |
X6 |
X7 |
X8 |
X9 | |
Ардатовский |
4,3 |
375 |
19,1 |
84 |
42 |
110 |
39 |
884 |
887,5 |
Атюрьевский |
5,4 |
325 |
20,9 |
87 |
27 |
128 |
20 |
1097 |
1021,3 |
Атяшевский |
5,1 |
361 |
22,5 |
76 |
37 |
126 |
31 |
905 |
1009,2 |
Большеберезниковский |
4,8 |
400 |
25 |
59 |
26 |
129 |
20 |
952 |
884,2 |
Большеигнатовский |
5,6 |
355 |
21,4 |
72 |
24 |
124 |
17 |
1208 |
1254,6 |
Дубенский |
4,4 |
338 |
22,4 |
49 |
22 |
123 |
19 |
1000 |
944,3 |
Ельниковский |
3 |
351 |
20,6 |
84 |
33 |
119 |
19 |
1192 |
930 |
Зубово-Полянский |
5,1 |
390 |
16,7 |
75 |
60 |
66 |
43 |
953 |
702,8 |
Инсарский |
3,3 |
348 |
21,6 |
67 |
28 |
121 |
19 |
1624 |
923,2 |
Ичалковский |
4 |
396 |
22 |
68 |
34 |
121 |
30 |
1558 |
1148,1 |
Кадошкинский |
3,2 |
418 |
18,3 |
77 |
14 |
118 |
13 |
1604 |
988,3 |
Ковылкинский |
3,8 |
316 |
19,7 |
49 |
64 |
107 |
46 |
1734 |
1080,7 |
Кочкуровский |
3,1 |
347 |
22,9 |
58 |
17 |
130 |
15 |
2080 |
1175 |
Краснослободский |
3,2 |
390 |
21,1 |
74 |
33 |
104 |
31 |
1214 |
919 |
Лямбирский |
6,6 |
552 |
19,2 |
74 |
29 |
75 |
22 |
1225 |
1206,2 |
Ромодановский |
2,3 |
409 |
22,3 |
86 |
25 |
123 |
21 |
1991 |
789,4 |
Рузаевский |
5,1 |
437 |
21,8 |
46 |
37 |
82 |
34 |
2026 |
1227,1 |
Старошайговский |
3,3 |
389 |
21,6 |
69 |
35 |
110 |
30 |
1395 |
777,3 |
Темниковский |
5,1 |
365 |
21,8 |
73 |
41 |
120 |
28 |
1211 |
731,3 |
Теньгушевский |
4,7 |
460 |
21,7 |
76 |
24 |
116 |
18 |
929 |
845,1 |
Торбеевский |
4,2 |
562 |
20,3 |
90 |
37 |
108 |
25 |
1203 |
940,8 |
Чамзинский |
5,4 |
575 |
20,2 |
78 |
28 |
111 |
24 |
1579 |
1074,4 |
г.Саранск |
3,7 |
699 |
18,7 |
109 |
64 |
144 |
50 |
1642 |
1524,8 |
Рисунок Б.1- Дендрограмма объединения районов РМ в 2000 г
Таблица Б.2 – Районы, вошедшие в кластеры и расстояние между ними
Район |
КЛАСТЕР |
РАССТОЯН | |
Ардатовский |
1 |
2 |
0,77 |
Атюрьевский |
2 |
1 |
0,53 |
Атяшевский |
3 |
1 |
0,42 |
Большеберезниковский |
4 |
1 |
0,62 |
Большеигнатовский |
5 |
1 |
0,62 |
Дубенский |
6 |
1 |
0,57 |
Ельниковский |
7 |
3 |
0,50 |
Зубово-Полянский |
8 |
2 |
1,26 |
Инсарский |
9 |
3 |
0,23 |
Ичалковский |
10 |
3 |
0,55 |
Кадошкинский |
11 |
3 |
0,74 |
Ковывлкинский |
12 |
2 |
1,13 |
Кочкуровский |
13 |
3 |
0,85 |
Краснослободский |
14 |
3 |
0,53 |
Лямбирьский |
15 |
2 |
1,01 |
Ромодановский |
16 |
3 |
0,66 |
Рузаевский |
17 |
2 |
1,11 |
Старошайговский |
18 |
3 |
0,51 |
Темниковский |
19 |
1 |
0,57 |
Теньгушевский |
20 |
1 |
0,48 |
Торбеевский |
21 |
2 |
0,71 |
Чамзинский |
22 |
2 |
0,73 |
г.Саранск |
23 |
2 |
1,73 |
F |
14,70 |
Информация о работе Многомерный анализ организации жизненного пространства региона