Многомерный анализ организации жизненного пространства региона

Автор работы: Пользователь скрыл имя, 16 Июня 2013 в 11:55, курсовая работа

Краткое описание

В статистических исследованиях группировка первичных данных является основным приемом решения задачи классификации, а поэтому основой всей дальнейшей работы с собранной информацией. Из множества признаков, описывающих объект, отбирается один, наиболее информативный с точки зрения исследователя, и производится группировка в соответствии со значениями данного признака. Однако при наличии большого количества признаков построение группировок усложняется настолько, что не представляется целесообразным, поэтому задача классификации может быть решена методами кластерного анализа.

Вложенные файлы: 1 файл

3 Многомерный анализ организации жизненного пространства региона.doc

— 357.00 Кб (Скачать файл)

Проанализировав выборки  на основании расстояния Махалонобиса, следует выделить некорректно отнесенные районы: Ельниковский, Старошайговский, Темниковский и Теньгушевский. После их удаления была получена выборка, состоящая из 19 районов РМ: 10 районов находятся в первой группе, 7 - во второй, 2 - в третьей. Классификационная матрица, полученная после корректировки, представлена в таблице 3.6 и показывает, что общий коэффициент корректности равен 100%.

Таблица 3.6 - Классификационная матрица (после корректировки выборки)

Матрица классификации

Строки: наблюдаемые наблюдения

Столбцы: предсказанные наблюдения

 

Процент

правил.

G_1:1

p=,43478

G_2:2

p=,39130

G_3:3

p=,17391

G_1:1

100

10

0

0

G_2:2

100

0

7

0

G_3:3

100

0

0

2

Всего

100

10

7

2


Исключение ошибок из выборки не привело к изменению  характеристик дискриминации. Результаты представлены в таблице 3.7

Таблица 3.7 - Переменные, включенные в модель и их характеристика (после корректировки выборки)

Итоги анализа дискриминантных  функций (да.sta)

Шаг 4, N перем. в модели: 4; группир.: КЛАСС (3 гр.)

Лямбда Уилкса: ,17311 прибл. F (8,34)=5,9646 p< ,0001

 

Уилкса

лямбда

Частная

лямбда

F-исключ

(2,17)

p-уров.

Толер.

1-толер.

(R-кв.)

Y2

0,519

0,333

17,009

8,77E-05

0,395

0,604

Y8

0,276

0,625

5,090

0,018

0,438

0,561

Y9

0,291

0,594

5,808

0,011

0,495

0,504

Y1

0,276

0,626

5,067

0,018

0,526

0,473


Проверив переменные и отобрав из них наиболее значимые необходимо определить канонические дискриминантные функции и выяснить, насколько хорошими дискриминаторами являются полученные функции, то есть на данном этапе решается вопрос об их статистической значимости. Проверка значимости приведена в таблице 3.8.

Таблица 3.8 - Проверка значимости дискриминантных функций

Функция

Собств. знач.

Канонич.R

Лямбда Уилкса

Хи-квад.

ст.св.

p-уров.

1

2,618

0,850

0,173

32,445

8

7,79E-05

2

0,596

0,611

0,626

8,655

3

0,034


Проанализировав собственные значения функций, их величина связана с дискриминирующими возможностями каждой функции: чем больше собственное значение, тем лучше различение групп, которое может быть получено при использовании той или иной функции. Поскольку собственные значения располагаются в порядке убывания их величин, первая функция обладает наибольшими дискриминантными возможностями, вторая обеспечивает максимальное различение после первой и т.д. Фактически числа, представляющие собой собственные значения ни о чем не говорят. Их нельзя интерпретировать непосредственно. Они лишь определяют порядок значимости дискриминантных функций.

Для оценки реальной полезности функций часто используются коэффициенты канонической корреляции. Они являются мерой связи и показывают степень зависимости между выделенными группами и дискриминантными переменными. Чем больше величина коэффициента, тем лучше дискриминантные возможности она имеет. Анализ коэффициентов канонической корреляции исследуемых дискриминантных функций указывает на наличие сильной взаимосвязи между классами и этими функциями. Более мощными дискриминатором является функция 1, т. к. значение коэффициента у нее наибольшее - 0,851, функция 2 так же характеризуются хорошими дискриминантными возможностями, поскольку ее коэффициент канонической корреляции тоже довольно высок - 0,611.

Проверка статистической значимости полученных дискриминантных  функций осуществляется на основании  остаточной дискриминантной способности системы до и после определения каждой функции. С этой целью рассчитываются значения λ-статистики Уилкса и статистики хи-квадрата (таблица 3.9), на основании которых определяется уровень значимости. Так как расчетное значение  критерия χрасч 2 для двух функций больше соответствующих табличных значений, можно сделать вывод о том, что эти функции являются статистически значимыми.

Таблица 3.9 - Коэффициенты дискриминантных функций

Переменные

Стандартизированные коэффициенты

Структурные коэффициенты

Ф 1

Ф 2

Ф 1

Ф 2

Y2

1,456

0,632

0,605

0,270

Y8

-1,086

-0,036

0,044

-0,013

Y9

-0,894

0,801

-0,082

0,251

Y1

-0,375

1,274

-0,247

0,491


В таблице 3.12 представлены коэффициенты в стандартной форме, они показывают относительный вклад переменной. Видно, что для функции 1 максимален относительный вклад переменной У2 – среднемесячная номинальная заработная плата работников организаций, р, а для функции 2 максимальны вклады У1 – уровень зарегистрированной безработицы по районам РМ,% и У9 – заболеваемость на 1000 человек населения.

Использование данного  подхода к определению значимости переменных является оправданным лишь в том случае, когда исходные признаки не коррелированны. Если же между двумя  переменными существует тесная взаимосвязь, то их относительный вклад в дискриминантное значение должен разделяться, даже при значительном совместном вкладе. Соответсвенно, их стандартизированные коэффициенты могут быть меньше по сравнению с теми случаями, когда используется одна из этих. То есть, вклад одного коэффициента  частично погашается отрицательным вкладом другого. В связи с этим при наличии взаимозависимых признаков более правомерным является использование структурных коэффициентов, которые представляют собой простые двумерные корреляции, а потому на них не влияют взаимосвязи прочих переменных.

В ходе исследования  было установлено отсутствие мультиколлинеарности между показателями, характеризующими состояние организации жизненного пространства в республике, для проверки проведенной интерпретации канонических дискриминантных функций были рассчитаны полные структурные коэффициенты, так же представленные в таблице 3.12. Их анализ дает схожие результаты. При изучении структурных коэффициентов, было выявлено, что первая дискриминантная функция наиболее тесно связана с показателем У2 - среднемесячная номинальная заработная плата работников организаций, р., а вторая с У1 – уровень зарегистрированной безработицы по районам РМ,% и У9 – заболеваемость на 1000 человек населения.

Поскольку выявлено две  дискриминантых функции, положение отдельных регионов в дискриминантном пространстве можно изобразить графически. На рисунке 3.1 показано как располагаются в пространстве районы Республики Мордовия, входящие в состав выборок. На графике видно, что группы вполне различимы, нет явных перекрытий объектов, что свидетельствует о хорошей дискриминации.

Рисунок 3.1 - Распределение  регионов обучающей выборки дискриминантном пространстве

Таким образом, на основании  проведенного анализа можно сделать  вывод о том, что полученные функции имеют смысл и могут быть использованы для выявления различий между группами. Следовательно, на основании этих функций можно классифицировать районы Республики Мордовия по уровню организации жизненного пространства в 2007 г.

В результате анализа, так же было получено разбиение всей совокупности изучаемых объектов на 3 группы: в 1 группу с низким уровнем организации жизненного пространства вошло 11 районов, в группу с высоким уровнем организации жизненного пространства вошло 7 районов республики, а в третью группу со средним уровнем организации жизненного пространства- 5 районов.

В целом приведенные результаты свидетельствуют о высокой степени коррелирования между обобщенными оценками, полученными с помощью кластерного анализа и дискриминантного, что позволяет считать их взаимодополняющими.

 

Приложение Б

(обязательное)

Таблица Б.1  – Исходные данные для кластерного анализа районов РМ в 2000 г

 

X1

X2

X3

X4

X5

X6

X7

X8

X9

Ардатовский

4,3

375

19,1

84

42

110

39

884

887,5

Атюрьевский

5,4

325

20,9

87

27

128

20

1097

1021,3

Атяшевский

5,1

361

22,5

76

37

126

31

905

1009,2

Большеберезниковский

4,8

400

25

59

26

129

20

952

884,2

Большеигнатовский

5,6

355

21,4

72

24

124

17

1208

1254,6

Дубенский

4,4

338

22,4

49

22

123

19

1000

944,3

Ельниковский

3

351

20,6

84

33

119

19

1192

930

Зубово-Полянский

5,1

390

16,7

75

60

66

43

953

702,8

Инсарский

3,3

348

21,6

67

28

121

19

1624

923,2

Ичалковский

4

396

22

68

34

121

30

1558

1148,1

Кадошкинский

3,2

418

18,3

77

14

118

13

1604

988,3

Ковылкинский

3,8

316

19,7

49

64

107

46

1734

1080,7

Кочкуровский

3,1

347

22,9

58

17

130

15

2080

1175

Краснослободский

3,2

390

21,1

74

33

104

31

1214

919

Лямбирский

6,6

552

19,2

74

29

75

22

1225

1206,2

Ромодановский

2,3

409

22,3

86

25

123

21

1991

789,4

Рузаевский

5,1

437

21,8

46

37

82

34

2026

1227,1

Старошайговский

3,3

389

21,6

69

35

110

30

1395

777,3

Темниковский

5,1

365

21,8

73

41

120

28

1211

731,3

Теньгушевский

4,7

460

21,7

76

24

116

18

929

845,1

Торбеевский

4,2

562

20,3

90

37

108

25

1203

940,8

Чамзинский

5,4

575

20,2

78

28

111

24

1579

1074,4

г.Саранск

3,7

699

18,7

109

64

144

50

1642

1524,8


 


 

Рисунок Б.1- Дендрограмма объединения районов РМ в 2000 г

 

 

Таблица Б.2 – Районы, вошедшие в кластеры и расстояние между ними

Район 

 

КЛАСТЕР

РАССТОЯН

Ардатовский

1

2

0,77

Атюрьевский

2

1

0,53

Атяшевский

3

1

0,42

Большеберезниковский

4

1

0,62

Большеигнатовский

5

1

0,62

Дубенский

6

1

0,57

Ельниковский

7

3

0,50

Зубово-Полянский

8

2

1,26

Инсарский

9

3

0,23

Ичалковский

10

3

0,55

Кадошкинский

11

3

0,74

Ковывлкинский

12

2

1,13

Кочкуровский

13

3

0,85

Краснослободский

14

3

0,53

Лямбирьский

15

2

1,01

Ромодановский

16

3

0,66

Рузаевский

17

2

1,11

Старошайговский

18

3

0,51

Темниковский

19

1

0,57

Теньгушевский

20

1

0,48

Торбеевский

21

2

0,71

Чамзинский

22

2

0,73

г.Саранск

23

2

1,73

   

F

14,70

Информация о работе Многомерный анализ организации жизненного пространства региона