Автор работы: Пользователь скрыл имя, 16 Июня 2013 в 11:55, курсовая работа
В статистических исследованиях группировка первичных данных является основным приемом решения задачи классификации, а поэтому основой всей дальнейшей работы с собранной информацией. Из множества признаков, описывающих объект, отбирается один, наиболее информативный с точки зрения исследователя, и производится группировка в соответствии со значениями данного признака. Однако при наличии большого количества признаков построение группировок усложняется настолько, что не представляется целесообразным, поэтому задача классификации может быть решена методами кластерного анализа.
В 2000 г. в кластер №1 вошли 7 районов, кластер №2 включает 8 районов, кластер №3 – 8 районов. В 2004г первый кластер включает 5 районов, №2 – 11 районов, кластер №3 состоит из 7 районов. В 2007г в кластер №1 вошло 10 районов, кластер №2 – 9 районов, а третий кластер состоит из 4 районов.
Характеристики выделенных кластеров представлены в таблице 3.2.
Таблица 3.2 – Рейтинг значений признаков для каждого кластера
Признак |
2000 |
2004 |
2007 | ||||||
Кластер 1 |
Кластер 2 |
Кластер 3 |
Кластер 1 |
Кластер 2 |
Кластер 3 |
Кластер 1 |
Кластер 2 |
Кластер 3 | |
х1 |
2 |
3 |
1 |
2 |
3 |
1 |
2 |
1 |
3 |
х2 |
1 |
3 |
2 |
1 |
2 |
3 |
2 |
1 |
3 |
х3 |
3 |
1 |
2 |
3 |
2 |
1 |
2 |
3 |
1 |
х4 |
3 |
1 |
2 |
3 |
1 |
2 |
1 |
2 |
3 |
х5 |
1 |
2 |
3 |
1 |
2 |
3 |
3 |
1 |
2 |
х6 |
3 |
1 |
2 |
3 |
1 |
2 |
1 |
3 |
2 |
х7 |
1 |
2 |
3 |
2 |
1 |
3 |
2 |
1 |
3 |
х8 |
2 |
1 |
3 |
1 |
2 |
3 |
1 |
3 |
2 |
х9 |
2 |
1 |
3 |
2 |
3 |
1 |
3 |
1 |
2 |
сумма мест |
18 |
15 |
21 |
18 |
17 |
19 |
17 |
16 |
21 |
Наилучшим на протяжении всего исследуемого периода с точки зрения средних значений показателей уровня организации жизненного пространства, является второй кластер. Его состав можно считать относительно стабильным. Саранск в 2007г является отдельно стоящим объектом, это связано с наличием в городе учреждений республиканского значения. Кластеру №2 соответствуют наибольшие значения показателей благосостояния и качества населения, а так же показатели здравоохранения, что объясняется тем, что в г. Саранске сосредоточены почти все общеобразовательные учреждения и учреждения здравоохранения. В 2004 г. по среднему показателю уровня заболеваемости г.Саранск занимает последнее место. Высокий уровень заболеваемости объясняется неблагоприятной экологической ситуацией в столице, а та же тем, что население города имеет больше возможности получения квалифицированной помощи, в связи, с чем чаще обращается в лечебно-профилактические учреждения и, соответственно, происходит большее количество регистрации различных видов заболеваний.
Промежуточное положение на протяжении всего периода занимает кластер №1, в нем находятся районы со средними показателями, характеризующими организацию жизненного пространства.
Районы, находящиеся в кластере №3 в 2000г, 2004г и 2007г, относятся к группе с наименее развитым уровнем организации жизненного пространства. Однако этим кластерам характерен достаточно высокий уровень материального благосостояния населения.
Процесс объединения районов Республики Мордовия в соответствующие кластеры представлен на дендрограмме (Приложение Б). Дендрограмма показывает расстояние, на котором происходит присоединение каждого объекта (района) к определенному кластеру. Графическое изображение средних значений признаков для каждого кластера в 2000г, 2004г и 2007г представлено в Приложении Б.
Состав кластеров в 2000г, 2004г и 2007г изменяется. Постоянством состава отличается лишь кластер №2, в который входят районы с высоким уровнем организации жизненного пространства. Это такие районы как Зубово-Полянский район, Лямбирьский район, Ромодановский р-н, Рузаевский р-н, Старошайговский р-н, г. Саранск, Чамзинский и Торбеевский районы. Эти районы относились к группе с высоким уровнем организации жизненного пространства на протяжении семи лет. Ковылкинский р-н, Ардатовский, Атюрьевский, Атяшевский, Б-Березниковский, Б-Игнатовский, Теньгушевский, Ромодановский, Кадошкинский и Кочкуровский районы нельзя охарактеризовать стабильным состоянием, т. к они на протяжении всего периода относились как к группе с низким уровнем организации жизненного пространства (Ковылкинский р-н), так и к районам со средним уровнем организации жизненного пространства.
По сравнению с 2004г. изменилось в лучшую сторону состояние Теньгушевского и Ромодановского районов, которые из кластеров с средним уровнем перешли в кластер с высокими показателями организации жизненного пространства. Улучшили свое положение Кадошкинский, Кочкуровский и Старошайговский районы, так если в 2000г они относились к районам с низким уровнем организации жизненного пространства, то 2004г эти районы стали входить в состав районов с высоким уровнем организации жизненного пространства, что говорит о положительном влиянии социальных программ, разработанных Правительством РМ.
Однако в 2004г ухудшилось состояние Инсарского района, из группы со средним уровнем организации жизненного пространства он передвинулся в группу районов-аутсайдеров, и на протяжении трех последующих лет, его состояние так и не изменилось. В 2007 г по сравнению с 2004г в худшую сторону изменилось состояние Атюрьевского и Атяшевского районов, из кластера с наилучшими средними показателями по социальной сфере они опустились в группу районов со средним уровнем развития социальной сферы и организацией жизненного пространства, не сумев удержаться на лидирующих позициях.
Детальное исследование организации жизненного пространства в районах РМ за 2000, 2004, 2007 г.г. методами кластерного анализа выявило положительную динамику, которая проявилась в улучшении организации жизненного пространства у основной части районов Республики Мордовия. Это свидетельствует об эффективности разрабатываемых программ социального развития и поддержки районов.
Дискриминантный анализ уровня организации жизненного
пространства в районах Республики Мордовия
Дискриминантный анализ – это раздел математической статистики, содержанием которого является разработка методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам на однородные группы [81].
Для решения задачи дискриминантного анализа (разбиения совокупности объектов на однородные группы) необходимо на первом этапе сформировать выборку, на основе которой будут классифицироваться объекты. Для получения такой выборки были использованы результаты уже проведенного выше кластерного анализа.
При проведении анализа было выделено три группы с различным уровнем организации жизненного пространства в районах РМ в 2007г., результаты представлены в таблице 3.3
Таблица 3.3 – Распределение районов РМ по кластерам в 2007 г.
Группа |
Район |
Группа №1 Низкий уровень |
Ардатовский Атюрьевский Атяшевский Кочкуровский Дубенский Ичалковский Кадошкинский Ковылкинский Б-Березниковский Б-Игнатовский |
Группа №2 Высокий уровень |
З-Полянский Лямбирьский Ромодановский Рузаевский Старошайговский г.Саранск Чамзинский Торбеевский Теньгушевский |
Группа №3 Средний уровень |
Ельниковский Темниковский Краснослободский Инсарский |
Характеристика организации жизненного пространства по следующим показателям: У1 – уровень зарегистрированной безработицы по районам РМ,%; У2 – среднемесячная номинальная заработная плата работников организаций, р; У3 – площадь жилищ приходящихся на одного жителя, кв. м; У4 – обеспеченность местами детей в дошкольных учреждениях (на 100 мест), чел; У5 – число дневных общеобразовательных учреждений; У6 – число больничных коек на 10000 человек населения; У7 – число общедоступных библиотек; У8 – число зарегистрированных преступлений на 100000 жителей; У9 – заболеваемость на 1000 человек населения.
Данные показатели будут являться дискриминантными. Анализ осуществляется с помощью метода пошагового включения. Сущность этого метода заключается в том, что на каждом шаге просматриваются все переменные, и находится та из них, которая вносит больший вклад в различия между совокупностями. Эта переменная и должна быть включена в модель на данном этапе. Затем происходит переход к следующему шагу и процедура повторяется. В результате реализации данного метода сохраняются только те переменные, чей вклад в дискриминацию больше остальных.
В модель будет включено 4 переменные: У1 – уровень зарегистрированной безработицы по районам РМ,%; У2 – среднемесячная номинальная заработная плата работников организаций, р; У8 – число зарегистрированных преступлений на 100000 жителей; У9 – заболеваемость на 1000 человек населения.
Результаты представлены в таблице 3.4.
Таблица 3.4 - Переменные, включенные в модель и их характеристики (до корректировки выборок)
Итоги анализа дискриминантных функций Шаг 4, N перем. в модели: 4; группир.: КЛАСС (3 гр.) Лямбда Уилкса: ,173 прибл. F (8,34)=5,965 p< ,0001 | ||||||
Уилкса лямбда |
Частная лямбда |
F-исключ (2,17) |
p-уров. |
Толер. |
1-толер. (R-кв.) | |
Y2 |
0,519 |
0,333 |
17,009 |
8,77E-05 |
0,396 |
0,604 |
Y8 |
0,277 |
0,625 |
5,090 |
0,019 |
0,438 |
0,562 |
Y9 |
0,291 |
0,594 |
5,809 |
0,012 |
0,496 |
0,504 |
Y1 |
0,276 |
0,626 |
5,068 |
0,019 |
0,527 |
0,473 |
На основании значения статистики Уилкса, равного 0,173 и F-критерия, равного 5,965 можно сделать вывод о том, что эта модель дискриминации является достаточно корректной, т.к значение λ-Уилкса близко к нулю, а значение приближенного F-критерия статистически значимо при α=0,05 (Fрасч. =5,965>1.73 = F0.05;8;34.)
Анализ правильности формирования выборок осуществлялся на основе статистических критериев: расстояния Махалонобиса и апостериорной вероятности. Отнесение i-го объекта в j-ю группу считается ошибочным, если расстояние Махалонобиса от объекта до центра его группы значительно выше, чем до центра других групп, а апостериорная вероятность ниже критического значения [81]. В этом случае объект является некорректно отнесенным и должен быть исключен из выборки.
С учетом данных критериев для проверки корректности выборок была построена классификационная матрица. Результаты приведены в таблице 3.5.
Таблица 3.5- Классификационная матрица до корректировки выборки
Матрица классификации (да.sta) Строки: наблюдаемые наблюдения Столбцы: предсказанные наблюдения | ||||
Процент правил. |
G_1:1 p=,435 |
G_2:2 p=,391 |
G_3:3 p=,174 | |
G_1:1 |
100 |
10 |
0 |
0 |
G_2:2 |
77, 8 |
1 |
7 |
1 |
G_3:3 |
50 |
2 |
0 |
2 |
Всего |
82,608 |
13 |
7 |
3 |
Ее анализ показывает, что ко второй группе правильно было отнесено 7 объектов и неправильно 2 объекта, которые надо было отнести к 1 и 3 группе соответственно. По третьей группе - из 4 объектов два следует включить в состав первой группе. Таким образом, на основании классификационной матрицы можно сделать вывод о том, что в выборке 4 объекта из 23 были классифицированы неправильно, поскольку по значениям статистических критериев они должны находиться в других группах. Об этом так же свидетельствуют коэффициенты корректности по каждой группе, не достигшие 100%, а так же общий коэффициент корректности, равный 82,61%.
Для получения корректной выборки из них на основании метрики Махалонобиса или апостериорной вероятности необходимо исключить регионы, которые по своим показателям не соответствуют большинству объектов, образующих однородную группу. На первом шаге удаляется тот объект, который наиболее не подходит к определенной группе, то есть у него наибольшее расстояние Махалонобиса и наименьшая апостериорная вероятность. После удаления очередного района рассчитывается новая классификационная матрица, поскольку происходит смещение центра тяжести группы. Процедура исключения наблюдений происходит до тех пор, пока общий коэффициент корректности в классификационной матрице не достигнет 100%, то есть все элементы выборки будут корректно отнесены к той или иной группе.
Информация о работе Многомерный анализ организации жизненного пространства региона