Кластерный анализ в задаче многомерной оценки деятельности сельскохозяйственных организаций

Автор работы: Пользователь скрыл имя, 15 Июня 2014 в 14:35, реферат

Краткое описание

"Кластерный анализ – совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях (мерах близости) между ними. По смыслу аналогичен терминам: автоматическая классификация, таксономия, распознавание образов без учителя." Такое определение кластерного анализа дано в последнем издании "Статистического словаря". Фактически "кластерный анализ" - это обобщенное название достаточно большого набора алгоритмов, используемых при создании классификации. В ряде изданий используются и такие синонимы кластерного анализа, как классификация и разбиение. Кластерный анализ широко используется в науке как средство типологического анализа. В любой научной деятельности классификация является одной из фундаментальных составляющих, без которой невозможны построение и проверка научных гипотез и теорий.

Вложенные файлы: 1 файл

Реферат.docx

— 224.32 Кб (Скачать файл)

 В кластерном анализе  считается, что:

  • выбранные характеристики допускают в принципе желательное разбиение на кластеры;
  • единицы измерения (масштаб) выбраны правильно.

 Выбор масштаба играет  большую роль. Как правило, данные  нормализуют вычитанием среднего  и делением на стандартное  отклоненение, так что дисперсия оказывается равной единице.[5]

    1.   Пакеты программ, с помощью которых можно провести кластерный анализ

Стандартные статистические методы обработки данных включены в состав электронных таблиц, таких как Excel, Lotus 1-2-3, QuattroPro, и в математические пакеты общего назначения, например Mathсad. Но гораздо большими возможностями обладают специализированные статистические пакеты, позволяющие применять самые современные методы математической статистики для обработки данных. По официальным данным Международного статистического института, число статистических программных продуктов приближается к тысяче. Назовем лишь некоторые передовые: SAS, SPSS, STATISTICA, Insightful, KXEN, Excel XL, BMDP, STATGRAPHICS, GENSTAT, S-PLUS, Vortex, SIGAMD, DataScope, STADIA, СОМИ, ПНП-БИМ, СОРРА-2, СИТО. Среди них есть профессиональные статистические пакеты, предназначенные для пользователей, хорошо знакомых с методами математической статистики, и есть пакеты, с которыми могут работать специалисты, не имеющие глубокой математической подготовки.

 При выборе того  или иного статистического пакета, для сравнения пакетов, имеют  значение прежде всего такие  критерии, как:

  • удобство управления данными (экспорт / импорт данных, их реструктуризация);
  • статистическое разнообразие (количество статистических модулей);
  • графические возможности (наличие встроенного графического редактора, возможность показа отдельных элементов графика, возможности экспорта графиков).

Кроме того, большое значение имеет удобство работы с пакетом, легкость его освоения (наличие встроенной системы помощи, руководства пользователя, степень удобства управления данными, результатами вычислений, таблицами и графиками), а также скорость произведения вычислений. Наконец, анализ содержания форумов, посвященных обсуждению возможностей различных статистических пакетов, позволяет заключить, что при выборе статпакета фактор личных, часто нелогичных, предпочтений часто играет решающую роль.

STATISTICA является наиболее  динамично развивающимся статистическим  пакетом и по многочисленным  рейтингам является мировым лидером  на рынке статистического программного  обеспечения. Пакет STATISTICA насчитывает  более 350 тыс. зарегистрированных пользователей  во всем мире. Имеются версии  системы на немецком, французском, японском, испанском, польском и  других языках. Силами российского  офиса StatSoft система STATISTICA 6 полностью переведена на русский язык, включая интерфейс, документацию и справочное руководство.

Statistica позволяет проводить такие важные для историка-исследователя процедуры обработки статистических данных как:

  • описательные статистики;
  • анализ многомерных таблиц;
  • многомерная регрессия;
  • дискриминантный анализ;
  • анализ соответствий;
  • кластерный анализ;
  • факторный анализ;
  • дисперсионный анализ и многое другое.

Главный конкурент Statistica на мировом рынке статистического ПО – пакет SPSS (Statistical Package for the Social Science). По функциональности не уступает Statistica. Из разработок российских программистов выделим пакеты Vortex и Stadia, по своим базовым возможностям сопоставимые с наиболее известными западными статистическими пакетами.

 Приведем пример вторичной  обработки данных контент-анализа с помощью статистического пакета AtteStat. AtteStat – бесплатное программное обеспечение, предназначенное для профессиональной статистической обработки данных. Важно, что программа выполнена в виде надстройки к электронным таблицам Microsoft Excel: в меню просто появляется новый пункт – AtteStat (рисунок 1). Таким образом, исследователь фактически получает усиленный, дополненный многими новыми функциями, но уже знакомый, привычный, Microsoft Excel. AtteStat включает модули: «Анализ временных рядов и прогнозирование», «Аппроксимация зависимостей (с элементами регрессионного анализа)», «Дисперсионный анализ и множественные сравнения», «Информационный анализ», «Кластерный анализ», «Корреляционный анализ», «Кросстабуляция», «Многомерное шкалирование», «Непараметрическая статистика», «Обработка выбросов», «Обработка пропущенных данных», «Обработка экспертных оценок», «Описательная статистика», «Параметрическая статистика», «Проверка нормальности распределения», «Рандомизация и генерация случайных последовательностей», «Распознавание образов с обучением», «Статистический контроль качества», «Точные методы», «Факторный анализ».

 

Рисунок 1 - Atte Stat – надстройка к электронным таблицам MS Excel

Необходимо признать, что современные передовые статистические пакеты предоставляют возможность доступа к новым, нетрадиционным методам анализа данных, помогают находить новые способы проверки рабочих гипотез и исследования данных. Но при использовании статистических методов теряется часть информации. Их применение напрямую связано с проблемой точности исторических выводов, полученных с помощью математических методов. Математическая строгость сама по себе без взаимосвязи с исторической стороной исследования не означает точности, надежности результатов. Данная проблема настоятельно нуждается в разрешении, ибо напрямую связана с возможностями математической обработки данных, в том числе корректностью использования тех или иных математических приемов (функций), содержащихся в стандартных пакетах [9].

 

  1.  
    ПРИМЕНЕНИЕ КЛАСТЕРНОГО АНАЛИЗА

    1.   Процедура кластерного анализа

Задачи кластерного анализа можно объединить в следующие группы:

  • разработка типологии или классификации;
  • исследование полезных концептуальных схем группирования объектов;
  • представление гипотез на основе исследования данных;
  • проверка гипотез или исследований для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Как правило, при практическом использовании кластерного анализа одновременно решается несколько из указанных задач.

Рассмотрим пример процедуры кластерного анализа.

Допустим, мы имеем набор данных А, состоящий из 14-ти примеров, у которых имеется по два признака X и Y. Данные по ним приведены в таблице 1.

Таблица 1 - Набор данных

№ примера

Признак Х

Признак У

1

27

19

2

11

46

3

25

15

4

36

27

5

35

25

6

10

43

7

11

44

8

36

24

9

26

14

10

26

14

11

9

45

12

33

23

13

27

16

14

10

47


 

Данные в табличной форме не носят информативный характер. Представим переменные X и Y в виде диаграммы рассеивания, изображенной на рисунке 2.

Рисунок 2 - Диаграмма рассеивания переменных Х и У

На рисунке мы видим несколько групп "похожих" примеров. Примеры (объекты), которые по значениям X и Y "похожи" друг на друга, принадлежат к одной группе (кластеру); объекты из разных кластеров не похожи друг на друга.

Критерием для определения схожести и различия кластеров является расстояние между точками на диаграмме рассеивания. Это сходство можно "измерить", оно равно расстоянию между точками на графике. Способов определения меры расстояния между кластерами, называемой еще мерой близости, существует несколько. Наиболее распространенный способ - вычисление евклидова расстояния между двумя точками i и j на плоскости, когда известны их координаты X и Y:

 

Примечание: чтобы узнать расстояние между двумя точками, надо взять разницу их координат по каждой оси, возвести ее в квадрат, сложить полученные значения для всех осей и извлечь квадратный корень из суммы.

Когда осей больше, чем две, расстояние рассчитывается таким образом: сумма квадратов разницы координат состоит из стольких слагаемых, сколько осей (измерений) присутствует в нашем пространстве. Например, если нам нужно найти расстояние между двумя точками в пространстве трех измерений, (рисунок 3)формула (1) приобретает вид:

 



 

 

 

 

Кластер имеет следующие математические характеристики: центр, радиус, среднеквадратическое отклонение, размер кластера.

Центр кластера - это среднее геометрическое место точек в пространстве переменных.

Радиус кластера - максимальное расстояние точек от центра кластера.

Как было отмечено в одной из предыдущих лекций, кластеры могут быть перекрывающимися. Такая ситуация возникает, когда обнаруживается перекрытие кластеров. В этом случае невозможно при помощи математических процедур однозначно отнести объект к одному из двух кластеров. Такие объекты называют спорными.

Спорный объект - это объект, который по мере сходства может быть отнесен к нескольким кластерам.

Размер кластера может быть определен либо по радиусу кластера, либо по среднеквадратичному отклонению объектов для этого кластера. Объект относится к кластеру, если расстояние от объекта до центра кластера меньше радиуса кластера. Если это условие выполняется для двух и более кластеров, объект является спорным.

Неоднозначность данной задачи может быть устранена экспертом или аналитиком.

Работа кластерного анализа опирается на два предположения. Первое предположение - рассматриваемые признаки объекта в принципе допускают желательное разбиение пула (совокупности) объектов на кластеры. В начале лекции мы уже упоминали о сравнимости шкал, это и есть второе предположение - правильность выбора масштаба или единиц измерения признаков.

Выбор масштаба в кластерном анализе имеет большое значение. Рассмотрим пример. Представим себе, что данные признака х в наборе данных А на два порядка больше данных признака у: значения переменной х находятся в диапазоне от 100 до 700, а значения переменной у - в диапазоне от 0 до 1.

Тогда, при расчете величины расстояния между точками, отражающими положение объектов в пространстве их свойств, переменная, имеющая большие значения, т.е. переменная х, будет практически полностью доминировать над переменной с малыми значениями, т.е. переменной у. Таким образом из-за неоднородности единиц измерения признаков становится невозможно корректно рассчитать расстояния между точками.

Эта проблема решается при помощи предварительной стандартизации переменных. Стандартизация (standardization) или нормирование (normalization) приводит значения всех преобразованных переменных к единому диапазону значений путем выражения через отношение этих значений к некой величине, отражающей определенные свойства конкретного признака. Существуют различные способы нормирования исходных данных.

Два наиболее распространенных способа:

  • деление исходных данных на среднеквадратичное отклонение соответствующих переменных;
  • вычисление Z-вклада или стандартизованного вклада.

Наряду со стандартизацией переменных, существует вариант придания каждой из них определенного коэффициента важности, или веса, который бы отражал значимость соответствующей переменной. В качестве весов могут выступать экспертные оценки, полученные в ходе опроса экспертов - специалистов предметной области. Полученные произведения нормированных переменных на соответствующие веса позволяют получать расстояния между точками в многомерном пространстве с учетом неодинакового веса переменных.

В ходе экспериментов возможно сравнение результатов, полученных с учетом экспертных оценок и без них, и выбор лучшего из них.[7]

    1.   Методы кластерного анализа

Методы кластерного анализа можно разделить на две группы:

  • иерархические;
  • неиерархические.

Каждая из групп включает множество подходов и алгоритмов.

Используя различные методы кластерного анализа, аналитик может получить различные решения для одних и тех же данных. Это считается нормальным явлением.

Рассмотрим иерархические и неиерархические методы подробно.

Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении больших кластеров на меньшие.

Иерархические агломеративные методы (Agglomerative Nesting, AGNES).

Эта группа методов характеризуется последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров.

В начале работы алгоритма все объекты являются отдельными кластерами. На первом шаге наиболее похожие объекты объединяются в кластер. На последующих шагах объединение продолжается до тех пор, пока все объекты не будут составлять один кластер.

Иерархические дивизимные (делимые) методы (DIvisive ANAlysis, DIANA).

Эти методы являются логической противоположностью агломеративным методам. В начале работы алгоритма все объекты принадлежат одному кластеру, который на последующих шагах делится на меньшие кластеры, в результате образуется последовательность расщепляющих групп.

Информация о работе Кластерный анализ в задаче многомерной оценки деятельности сельскохозяйственных организаций