Автор работы: Пользователь скрыл имя, 16 Июня 2013 в 11:55, курсовая работа
В статистических исследованиях группировка первичных данных является основным приемом решения задачи классификации, а поэтому основой всей дальнейшей работы с собранной информацией. Из множества признаков, описывающих объект, отбирается один, наиболее информативный с точки зрения исследователя, и производится группировка в соответствии со значениями данного признака. Однако при наличии большого количества признаков построение группировок усложняется настолько, что не представляется целесообразным, поэтому задача классификации может быть решена методами кластерного анализа.
Многомерный анализ организации жизненного пространства региона
Кластерный анализ организации жизненного пространства в районах Республики Мордовия
В статистических исследованиях группировка первичных данных является основным приемом решения задачи классификации, а поэтому основой всей дальнейшей работы с собранной информацией. Из множества признаков, описывающих объект, отбирается один, наиболее информативный с точки зрения исследователя, и производится группировка в соответствии со значениями данного признака. Однако при наличии большого количества признаков построение группировок усложняется настолько, что не представляется целесообразным, поэтому задача классификации может быть решена методами кластерного анализа.
Кластерный анализ — это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором исходных переменных [6]. Целью кластерного анализа является образование групп схожих между собой объектов, которые принято называть кластерами. Слово кластер английского происхождения (cluster) и переводится как сгусток, пучок, группа
В отличие от комбинационных группировок кластерный анализ приводит к разбиению на группы с учетом всех группировочных признаков одновременно. Например, если каждый наблюдаемый объект характеризуется двумя признаками x1 и x2, то при выполнении комбинационной группировки вся совокупность объектов будет разбита на группы по x1, а затем внутри каждой выделенной группы будут образованы подгруппы по x2. Такой подход получил название монотетического. Определить принадлежность каждого объекта к той или иной группе можно, последовательно сравнивая его значения x1 и x2 с границами выделенных групп. Образование группы в этом случае всегда связано с указанием ее границ по каждому группировочному признаку отдельно.
В кластерном анализе используется иной принцип образования групп, так называемый политетический подход [5]. Все группировочные признаки одновременно участвуют в группировке, т.е. они учитываются все сразу при отнесении наблюдения в ту или иную группу. При этом, как правило, не указаны четкие границы каждой группы, а также неизвестно заранее, сколько же групп целесообразно выделить в исследуемой совокупности.
Особо важное место кластерный анализ занимает в тех отраслях науки, которые связаны с изучением массовых явлений и процессов, и в частности слабоизученных, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру.
Существуют различные методы кластеризации. Методы кластерного анализа можно разделить на две большие группы: агломеративные (последовательно объединяют отдельные объекты в группы - кластеры) и дивизимные (разделяют группы на отдельные группы). Использование различных алгоритмов в иерархических агломеративных методах приводит к различным кластерным структурам и сильно влияет на качество проведение кластеризации [82]. Поэтому алгоритм должен выбираться с учетом имеющихся сведений о существующие структуре совокупности наблюдаемых объектов с учетом требований оптимизации математических критериев.
Наряду с иерархическими методами классификации, существует многочисленная группа так называемых итеративных методов кластерного анализа. Сущность их заключается в том, что процесс классификации начинается с задания некоторых начальных условий (количество образуемых кластеров, порог завершения процесса классификации и т.д). Итеративные методы в большей степени, чем иерархические, требуют от пользователя интуиции при выборе типа классификационных процедур и задания начальных условий разбиения, так как большинство этих методов очень чувствительны к изменению задаваемых параметров.
Метод k-средних принадлежит к группе итеративных методов эталонного типа, считающихся удобными и быстродействующими. Метод k-средних удобен для обработки больших статистических совокупностей [6]. Алгоритм этого метода предполагает использование исходных значений переменных, а не вычисления и хранения матрицы расстояний между объектами.
Для анализа социальной сферы применялся метод k-средних, который считается достаточно удобным и быстродейственным. При его реализации кластеры формируются исходя из предварительно задаваемых условий разбиения, изменяемых исследователем в процессе кластеризации для достижения требуемого качества классификации.
Суть этого метода состоит в следующем: исследователь заранее определяет количество классов (k), на которые необходимо разбить имеющиеся наблюдения, и первые k наблюдений становятся центрами этих классов. Для каждого следующего наблюдения рассчитываются расстояния до центров кластеров, и данное наблюдение относится к тому кластеру, расстояние до которого было минимальным. После чего для кластера, в котором увеличилось количество наблюдений, рассчитывается новый центр тяжести (как среднее по каждому показателю) по всем включенным в кластер наблюдениям. ППП «Statistica» позволяет реализовать данный метод, предварительно задавая различное количество кластеров, на которые будет разбита исследуемая совокупность данных.
Проведение кластерного анализа имеет своей целью распределение 22 районов и муниципальных образований Республики Мордовия на группы по уровню организации жизненного пространства. Расчеты производились на основании информации основных показателях социальной сферы Республики Мордовия за 2000, 2004 и 2007 год в районном разрезе. По итогам качественного анализа за базу сравнения выбран 2004 г. Анализ представлен в приложении Б.
Многомерное исследование производилось по следующим показателям:
Х1 – уровень зарегистрированной безработицы по районам РМ,%;
Х2 – среднемесячная номинальная заработная плата работников организаций, р;
Х3 – площадь жилищ приходящихся на одного жителя, кв. м;
Х4 – обеспеченность местами детей в дошкольных учреждениях (на 100 мест), чел;
Х5 – число дневных
общеобразовательных учреждений
Х6 – число больничных коек на 10000 человек населения;
Х7 – число общедоступных библиотек;
Х8 – число зарегистрированных преступлений на 100000 жителей;
Х9 – заболеваемость на 1000 человек населения.
Характеризуя исходную информацию, следует отметить, что показатели XI и Х2 отражают в первую очередь материальное благосостояние населения. Включение подобных показателей обусловлено тем, что неблагополучие в сфере экономики является одной из первопричин снижения уровня социального развития. В анализ включены показатели, характеризующие степень внимания общества к качеству самого населения – это обеспеченность местами детей в дошкольных учреждениях (Х4), число дневных общеобразовательных учреждений по районам РМ (Х5) и число общедоступных библиотек по районам РМ (Х7). Число зарегистрированных преступлений в расчете на 10000 жителей (Х8) отражает уровень физической и имущественной безопасности членов общества, криминогенность и социального здоровья общества. Показатель «площадь жилищ приходящихся на одного жителя» (Х3) показывает обеспеченность жильем населения и характеризует условия жизни населения. Показатели число больничных коек на 10000 человек населения по районам РМ и заболеваемость на 1000 человек населения по районам РМ, соответственно Х6 и Х9, характеризуют состояние сферы здравоохранения и здоровья населения.
Здесь следует обратить внимание на то, что увеличение показателей X2, Х3, Х5, Х6 и Х7 свидетельствует о повышении уровня организации жизненного пространства, тогда как рост показателей Х1, Х4, Х8 и Х9 сигнализирует о его снижении. Массив исходных данных для кластерного анализа представлен в таблице Б.1.
Как видно, исходные показатели измеряются в различных единицах. Однако оценка сходства между объектами сильно зависит от абсолютного значения признака, единицы его измерения и от степени его вариации в совокупности. Чтобы устранить подобное влияние на процедуру классификации, можно значения исходных переменных нормировать (стандартизировать) различными способами. В ППП «Statistica» стандартизация исходных данных производилась по следующему методу:
где xij - индивидуальное значение i-го объекта по j-тому признаку (i = 1,n);
zij - нормированное значение i-го объекта по j-тому признаку;
- среднее значение объектов по j-тому признаку;
уj - среднеквадратическое отклонение значений объектов по j-ому признаку.
Все дальнейшие вычисления проводились по нормированным значениям. Поскольку исследуемую совокупность можно разбить на различное количество кластеров, то представляет интерес задача сравнительного анализа качества этих вариантов разбиения для выбора наилучшего. Под наилучшим разбиением понимается такое, при котором достигается экстремум (максимум или минимум) выбранного функционала качества (критерия качества разбиения).
Наиболее
распространенными
Если оценивать качество разбиения по степени удалённости кластеров друг от друга, то можно использовать функционал, при расчете которогоиспользуются средние межкластерные расстояния [83]. В большинстве случаев алгоритмы классификации и критерии качества связаны между собой, т.е. определенный алгоритм обеспечивает получение экстремального значения соответствующего функционала качества.
В кластерном анализе для количественной оценки сходства (однородности) объектов вводится понятие метрики - расстояния между объектами, поскольку в каждый кластер должны попасть объекты, имеющие сходные характеристики. Сходство или различие между классифицируемыми объектами устанавливается в зависимости от метрического расстояния между ними. Это связано с тем, что если каждый объект описывается k признаками, то он может быть представлен как точка в k - мерном пространстве, и сходство с другими объектами будет определяться как соответствующее расстояние. В кластерном анализе принято использовать различные меры расстояния между объектами: евклидово расстояние, взвешенное евклидово расстояние, хеммингово расстояние. При реализации метода k - средних в ППП «Statistica» применяется евклидово расстояние:
где dij -расстояние между i-м и j-м объектами;
xik, xjk - значения k-й переменной соответственно у i-гo и j-гo объектов.
Перед проведением кластерного анализа необходимо проверить всю совокупность исходных данных на однородность, т.е. отсутствие в массиве исходных данных слишком больших и слишком маленьких значений. При наличии неоднородности в совокупности необходимо исключить наблюдение, для которого характерны эти значения.
Визуальная проверка исходных данных на однородность показала наличие «выбросов» в 2004г и 2007г. В 2004г необходимо исключить Дубенский район, а в 2007г – г. Саранск. Данные районы будут присоединены к кластерам с наиболее высоким уровнем организации жизненного пространства (г. Саранск) и к кластеру с наиболее неблагополучными районами (Дубенский район), так как им соответствуют наибольшие значения показателей и наименьшие показатели, соответственно.
В результате проведенного кластерного анализа были выделены 3 группы (кластера). Распределение районов в 2000г, 2004г и 2007г по кластерам представлено в таблице 3.1.
Таблица 3.1 – Распределение районов по кластерам
Кластер |
2000 |
2004 |
2007 | |
Кластер №1 |
Атюрьевский Атяшевский Темниковский Дубенский Теньгушевский Б-Березниковский Б-Игнатовский |
Ардатовский Инсарский Ромодановский Теньгушевский Торбеевский |
Ардатовский Атюрьевский Атяшевский Кочкуровский Дубенский Ичалковский Кадошкинский Ковылкинский Б-Березниковский Б-Игнатовский | |
Кластер №2 |
г.Саранск Чамзинский Торбеевский Ковылкинский Ардатовский Рузаевский З-Полянский Лямбирьский |
Атюрьевский Атяшевский Б-Березниковский Б-Игнатовский З-Полянский Кадошкинский Кочкуровский Лямбирьский Старошайговский Чамзинский г.Саранск |
З-Полянский Лямбирьский Ромодановский Рузаевский Старошайговский г.Саранск Чамзинский Торбеевский Теньгушевский | |
Кластер №3 |
Елиниковский Инсарский Кадошкинский Ичалковский Кочкуровский Краснослободский Ромодановский Старошайговский |
Ельниковский Дубенский Ичалковский Ковылкинский Темниковский Рузаевский Краснослободский |
Ельниковский Темниковский Краснослободский Инсарский |
Информация о работе Многомерный анализ организации жизненного пространства региона