Многомерный анализ организации жизненного пространства региона

Автор работы: Пользователь скрыл имя, 16 Июня 2013 в 11:55, курсовая работа

Краткое описание

В статистических исследованиях группировка первичных данных является основным приемом решения задачи классификации, а поэтому основой всей дальнейшей работы с собранной информацией. Из множества признаков, описывающих объект, отбирается один, наиболее информативный с точки зрения исследователя, и производится группировка в соответствии со значениями данного признака. Однако при наличии большого количества признаков построение группировок усложняется настолько, что не представляется целесообразным, поэтому задача классификации может быть решена методами кластерного анализа.

Скачать в ZIP архиве (68.13 Кб) Сколько стоит заказать работу?

Вложенные файлы: 1 файл

3 Многомерный анализ организации жизненного пространства региона.doc

— 357.00 Кб (Скачать файл)

Проанализировав выборки на основании расстояния Махалонобиса, следует выделить некорректно отнесенные районы: Ельниковский, Старошайговский, Темниковский и Теньгушевский. После их удаления была получена выборка, состоящая из 19 районов РМ: 10 районов находятся в первой группе, 7 - во второй, 2 - в третьей. Классификационная матрица, полученная после корректировки, представлена в таблице 3.6 и показывает, что общий коэффициент корректности равен 100%.

Таблица 3.6 - Классификационная матрица (после корректировки выборки)

Матрица классификации Строки: наблюдаемые наблюдения Столбцы: предсказанные наблюдения
	Процент правил.	G_1:1 p=,43478	G_2:2 p=,39130	G_3:3 p=,17391
G_1:1	100	10	0	0
G_2:2	100	0	7	0
G_3:3	100	0	0	2
Всего	100	10	7	2

Исключение ошибок из выборки не привело к изменению характеристик дискриминации. Результаты представлены в таблице 3.7

Таблица 3.7 - Переменные, включенные в модель и их характеристика (после корректировки выборки)

Итоги анализа дискриминантных функций (да.sta) Шаг 4, N перем. в модели: 4; группир.: КЛАСС (3 гр.) Лямбда Уилкса: ,17311 прибл. F (8,34)=5,9646 p< ,0001
	Уилкса лямбда	Частная лямбда	F-исключ (2,17)	p-уров.	Толер.	1-толер. (R-кв.)
Y2	0,519	0,333	17,009	8,77E-05	0,395	0,604
Y8	0,276	0,625	5,090	0,018	0,438	0,561
Y9	0,291	0,594	5,808	0,011	0,495	0,504
Y1	0,276	0,626	5,067	0,018	0,526	0,473

Проверив переменные и отобрав из них наиболее значимые необходимо определить канонические дискриминантные функции и выяснить, насколько хорошими дискриминаторами являются полученные функции, то есть на данном этапе решается вопрос об их статистической значимости. Проверка значимости приведена в таблице 3.8.

Таблица 3.8 - Проверка значимости дискриминантных функций

Функция	Собств. знач.	Канонич.R	Лямбда Уилкса	Хи-квад.	ст.св.	p-уров.
1	2,618	0,850	0,173	32,445	8	7,79E-05
2	0,596	0,611	0,626	8,655	3	0,034

Проанализировав собственные значения функций, их величина связана с дискриминирующими возможностями каждой функции: чем больше собственное значение, тем лучше различение групп, которое может быть получено при использовании той или иной функции. Поскольку собственные значения располагаются в порядке убывания их величин, первая функция обладает наибольшими дискриминантными возможностями, вторая обеспечивает максимальное различение после первой и т.д. Фактически числа, представляющие собой собственные значения ни о чем не говорят. Их нельзя интерпретировать непосредственно. Они лишь определяют порядок значимости дискриминантных функций.

Для оценки реальной полезности функций часто используются коэффициенты канонической корреляции. Они являются мерой связи и показывают степень зависимости между выделенными группами и дискриминантными переменными. Чем больше величина коэффициента, тем лучше дискриминантные возможности она имеет. Анализ коэффициентов канонической корреляции исследуемых дискриминантных функций указывает на наличие сильной взаимосвязи между классами и этими функциями. Более мощными дискриминатором является функция 1, т. к. значение коэффициента у нее наибольшее - 0,851, функция 2 так же характеризуются хорошими дискриминантными возможностями, поскольку ее коэффициент канонической корреляции тоже довольно высок - 0,611.

Проверка статистической значимости полученных дискриминантных функций осуществляется на основании остаточной дискриминантной способности системы до и после определения каждой функции. С этой целью рассчитываются значения λ-статистики Уилкса и статистики хи-квадрата (таблица 3.9), на основании которых определяется уровень значимости. Так как расчетное значение критерия χ_расч ² для двух функций больше соответствующих табличных значений, можно сделать вывод о том, что эти функции являются статистически значимыми.

Таблица 3.9 - Коэффициенты дискриминантных функций

Переменные	Стандартизированные коэффициенты		Структурные коэффициенты
Переменные	Ф 1	Ф 2	Ф 1	Ф 2
Y2	1,456	0,632	0,605	0,270
Y8	-1,086	-0,036	0,044	-0,013
Y9	-0,894	0,801	-0,082	0,251
Y1	-0,375	1,274	-0,247	0,491

В таблице 3.12 представлены коэффициенты в стандартной форме, они показывают относительный вклад переменной. Видно, что для функции 1 максимален относительный вклад переменной У2 – среднемесячная номинальная заработная плата работников организаций, р, а для функции 2 максимальны вклады У1 – уровень зарегистрированной безработицы по районам РМ,% и У9 – заболеваемость на 1000 человек населения.

Использование данного подхода к определению значимости переменных является оправданным лишь в том случае, когда исходные признаки не коррелированны. Если же между двумя переменными существует тесная взаимосвязь, то их относительный вклад в дискриминантное значение должен разделяться, даже при значительном совместном вкладе. Соответсвенно, их стандартизированные коэффициенты могут быть меньше по сравнению с теми случаями, когда используется одна из этих. То есть, вклад одного коэффициента частично погашается отрицательным вкладом другого. В связи с этим при наличии взаимозависимых признаков более правомерным является использование структурных коэффициентов, которые представляют собой простые двумерные корреляции, а потому на них не влияют взаимосвязи прочих переменных.

В ходе исследования было установлено отсутствие мультиколлинеарности между показателями, характеризующими состояние организации жизненного пространства в республике, для проверки проведенной интерпретации канонических дискриминантных функций были рассчитаны полные структурные коэффициенты, так же представленные в таблице 3.12. Их анализ дает схожие результаты. При изучении структурных коэффициентов, было выявлено, что первая дискриминантная функция наиболее тесно связана с показателем У2 - среднемесячная номинальная заработная плата работников организаций, р., а вторая с У1 – уровень зарегистрированной безработицы по районам РМ,% и У9 – заболеваемость на 1000 человек населения.

Поскольку выявлено две дискриминантых функции, положение отдельных регионов в дискриминантном пространстве можно изобразить графически. На рисунке 3.1 показано как располагаются в пространстве районы Республики Мордовия, входящие в состав выборок. На графике видно, что группы вполне различимы, нет явных перекрытий объектов, что свидетельствует о хорошей дискриминации.

Рисунок 3.1 - Распределение регионов обучающей выборки дискриминантном пространстве

Таким образом, на основании проведенного анализа можно сделать вывод о том, что полученные функции имеют смысл и могут быть использованы для выявления различий между группами. Следовательно, на основании этих функций можно классифицировать районы Республики Мордовия по уровню организации жизненного пространства в 2007 г.

В результате анализа, так же было получено разбиение всей совокупности изучаемых объектов на 3 группы: в 1 группу с низким уровнем организации жизненного пространства вошло 11 районов, в группу с высоким уровнем организации жизненного пространства вошло 7 районов республики, а в третью группу со средним уровнем организации жизненного пространства- 5 районов.

В целом приведенные результаты свидетельствуют о высокой степени коррелирования между обобщенными оценками, полученными с помощью кластерного анализа и дискриминантного, что позволяет считать их взаимодополняющими.

Приложение Б

(обязательное)

Таблица Б.1 – Исходные данные для кластерного анализа районов РМ в 2000 г

	X1	X2	X3	X4	X5	X6	X7	X8	X9
Ардатовский	4,3	375	19,1	84	42	110	39	884	887,5
Атюрьевский	5,4	325	20,9	87	27	128	20	1097	1021,3
Атяшевский	5,1	361	22,5	76	37	126	31	905	1009,2
Большеберезниковский	4,8	400	25	59	26	129	20	952	884,2
Большеигнатовский	5,6	355	21,4	72	24	124	17	1208	1254,6
Дубенский	4,4	338	22,4	49	22	123	19	1000	944,3
Ельниковский	3	351	20,6	84	33	119	19	1192	930
Зубово-Полянский	5,1	390	16,7	75	60	66	43	953	702,8
Инсарский	3,3	348	21,6	67	28	121	19	1624	923,2
Ичалковский	4	396	22	68	34	121	30	1558	1148,1
Кадошкинский	3,2	418	18,3	77	14	118	13	1604	988,3
Ковылкинский	3,8	316	19,7	49	64	107	46	1734	1080,7
Кочкуровский	3,1	347	22,9	58	17	130	15	2080	1175
Краснослободский	3,2	390	21,1	74	33	104	31	1214	919
Лямбирский	6,6	552	19,2	74	29	75	22	1225	1206,2
Ромодановский	2,3	409	22,3	86	25	123	21	1991	789,4
Рузаевский	5,1	437	21,8	46	37	82	34	2026	1227,1
Старошайговский	3,3	389	21,6	69	35	110	30	1395	777,3
Темниковский	5,1	365	21,8	73	41	120	28	1211	731,3
Теньгушевский	4,7	460	21,7	76	24	116	18	929	845,1
Торбеевский	4,2	562	20,3	90	37	108	25	1203	940,8
Чамзинский	5,4	575	20,2	78	28	111	24	1579	1074,4
г.Саранск	3,7	699	18,7	109	64	144	50	1642	1524,8

Рисунок Б.1- Дендрограмма объединения районов РМ в 2000 г

Таблица Б.2 – Районы, вошедшие в кластеры и расстояние между ними

Район		КЛАСТЕР	РАССТОЯН
Ардатовский	1	2	0,77
Атюрьевский	2	1	0,53
Атяшевский	3	1	0,42
Большеберезниковский	4	1	0,62
Большеигнатовский	5	1	0,62
Дубенский	6	1	0,57
Ельниковский	7	3	0,50
Зубово-Полянский	8	2	1,26
Инсарский	9	3	0,23
Ичалковский	10	3	0,55
Кадошкинский	11	3	0,74
Ковывлкинский	12	2	1,13
Кочкуровский	13	3	0,85
Краснослободский	14	3	0,53
Лямбирьский	15	2	1,01
Ромодановский	16	3	0,66
Рузаевский	17	2	1,11
Старошайговский	18	3	0,51
Темниковский	19	1	0,57
Теньгушевский	20	1	0,48
Торбеевский	21	2	0,71
Чамзинский	22	2	0,73
г.Саранск	23	2	1,73
		F	14,70

Информация о работе Многомерный анализ организации жизненного пространства региона