Дискриминантный анализ

Автор работы: Пользователь скрыл имя, 31 Января 2015 в 17:09, контрольная работа

Краткое описание

Дискриминантный анализ - это раздел математической статистики, содержанием которого является разработка методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам. Например, разбиение совокупности предприятий на несколько однородных групп по значениям каких-либо показателей производственно-хозяйственной деятельности.

Содержание

Введение………………………………………………………..2
1.Назначение дискриминантного анализа…………………..3
2. Математико-статистические идеи метода…………………7
3.Основные результаты дискриминантного анализа…………13
Заключение……………………………………………………….14
Список литературы………………………………………………16

Вложенные файлы: 1 файл

анализ.doc

— 89.00 Кб (Скачать файл)

λ-Вилкса выполняет ту же функцию, что и в MANOVA, то есть является мерой достоверности различения классов при помощи данного набора переменных. λ-Вилкса  — это мера остаточной дискриминативной способности переменных при учете данного набора канонических функций. Следовательно, чем меньше λ-Вилкса, тем лучше данная каноническая функция (или весь их набор) различает объекты. χ2-тест позволяет определить статистическую достоверность такого различения.

Значения канонических функций вычисляются для каждого объекта по формуле, которая идентична по виду линейному уравнению множественной регрессии.

Значения канонических функций вычисляются для каждого центроида и каждого объекта, в том числе — «неизвестного», для которого не известна принадлежность к классу, и интерпретируются как их координаты в пространстве канонических функций. В этом пространстве малой размерности можно получить наглядное отображение всех объектов вместе с центроидами классов.

Принадлежность  объекта к классу в большинстве компьютерных программ дискриминантного анализа определяется по расстоянию этого объекта до центроида соответствующего класса в пространстве канонических функций. Объект причисляется к тому классу, к центроиду которого он ближе всего. Однако надо помнить, что если расстояние объекта до класса велико (то есть профиль объекта мало похож на среднегрупповой), то объект может быть причислен к данному классу, поскольку до остальных классов он еще дальше. 

 

Производной от расстояния является еще одна мера классификации -апостериорная вероятность принадлежности к классу. Априорная вероятность («до опыта») принадлежности «нового» объекта к классу равна численности «известных» объектов этого класса, деленной на все «известные» объекты. Эта вероятность известна и без дискриминантного анализа, «до опыта». Апостериорная вероятность («после опыта») вычисляется исходя из расстояний данного объекта до центроидов каждого класса в предположении, что он принадлежит к одному из этих классов. Для любого объекта, следовательно, сумма этих вероятностей по всем классам равна 1. И чем меньше расстояние этого объекта до центроида класса, тем выше апостериорная вероятность его принадлежности к этому классу. Отнесение объекта к классу на основе наибольшей из вероятностей, таким образом, эквивалентно использованию наименьшего расстояния до центроида этого класса.

Анализ дискриминантных переменных позволяет, если это необходимо, отсеять несущественные для предсказания дискриминантные переменные. Наиболее важными показателями в этом анализе являются: критерий F-Фишера, толерантность и статистика F-удаления. Значимость каждой переменной для разделения классов определяется по F -Фишера по модели дисперсионного анализа. Толерантность равна единице минус квадрат коэффициента множественной корреляции этой переменной со всеми остальными. Если толерантность равна нулю, то эта переменная является линейной комбинацией одной или нескольких других переменных и ее нельзя включать в анализ, равно как и переменные с очень малой толерантностью (скажем, меньше 0,001). Статистика F-удаления оценивает ухудшение разделения классов при удалении данной переменной из набора. Следовательно, чем больше значение этой статистики, тем более значима данная переменная для различения классов. На величину статистики F -удаления влияет не только различительная способность самой этой переменной (как в модели дисперсионного анализа), но и ее связь с другими переменными: чем сильнее она связана с другими переменными, тем меньше статистика F-удаления, тем меньше значение данной переменной.

Компьютерные программы  позволяют автоматически отсеять  малозначимые для дискриминантного анализа переменные. Во-первых, программа (SPSS) автоматически исключает из анализа переменные с низкой толерантностью. Во-вторых, возможен пошаговый дискриминантами анализ. При пошаговом методе переменные удаляются из анализа или включаются в него на основе улучшения (ухудшения) качества различения классов (обычно — по λ-Вилкса). Критериями для включения и удаления переменной являются статистики F -включения и F -удаления, которые показывают степень улучшения и ухудшения различения классов при включении и удалении данной переменной. Численные значения этих статистик могут быть заданы пользователем программы.

Дополнением к задаче классификации является анализ расстоянии между классами. Программы обычно вычисляют значения F -критерия Фишера и р-уровень статистической значимости расстояния. Анализ расстояний позволяет определить, насколько существенно различаются классы по выбранным для анализа дискриминантным переменным.

Несмотря на обилие статистических критериев и показателей качества классификации, основным ориентиром для исследователя должно вес же являться сопоставление действительной классификации «известных» объектов и их классификации при помощи канонических функций. Таким образом, основным показателем качества является процент совпадения этих двух классификаций.

Дискриминантный анализ относится к наиболее сложным  методам. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3.Основные результаты  дискриминантного анализа:

1) Определение статистической  значимости различия классов    при помощи данного набора  дискриминантных переменных.

2) Классификация «известных» и «неизвестных» объектов при помощи расстояний или значений априорных вероятностей. Качество классификации определяется совпадением действительной классификации и предсказанной для «известных» объектов. Мерой качества может служить вероятность ошибочной классификации как соотношение количества ошибочного отнесения к общему количеству «известных» объектов.

3) Выяснение вклада  каждой переменной в дискриминантный  анализ. Определяется по значению  критерия F-Фишера, толерантности статистики F-удаления.

4) Вычисление расстояний  между центроидами классов и  определение их статистической  значимости по F-критерию.

5) Анализ канонических  функций, их интерпритация через  дискриминантные (по стандартизированным  и структурным коэффициентам  канонических функций).

6) Графическое представление  всех объектов и центроидов  классов в осях канонических  функций.

 

 

 

 

 

 

 

 

Заключение

Аппарат дискриминантного анализа разрабатывался многими  учеными-специалистами, начиная с  конца 50-х годов ХХ в. Дискриминантным  анализом, как и другими методами многомерной статистики, занимались П.Ч. Махаланобис, Р. Фишер, Г.Хотеллинг и другие видные ученые. Дискриминантный анализ так же, как и кластерный анализ, относится к методам многомерной классификации, но при этом базируется на иных предпосылках. Основное отличие заключается в том, что в ходе дискриминантного анализа новые кластеры не образуются, а формулируется правило, по которому новые единицы совокупности относятся к одному из уже существующих множеств (классов). Основанием для отнесения каждой единицы совокупности к определенному множеству служит величина дискриминантной функции, рассчитанная по соответствующим значениям дискриминантных переменных.

Основными проблемами дискриминантного анализа являются, во-первых, определение набора дискриминантных переменных, Bo-вторых, выбор вида дискриминантной функции. Существуют различные критерии последовательного отбора переменных, позволяющих получить наилучшее различение множеств. Можно также воспользоваться алгоритмом пошагового дискриминантного анализа, который в литературе подробно описан. После уточнения оптимального набора дискриминантных переменных исследователю предстоит решить вопрос о выборе вида дискриминантной функции, Т.е. выбрать вид разделяющей поверхности. Чаще всего на практике применяют линейный дискриминантный анализ. В этом случае дискриминантная функция представляет собой либо прямую, либо плоскость (гиперплоскость).

Линейная дискриминантная функция не всегда подходит в качестве описания разделяющей поверхности между множествами. Например, в тех случаях, когда различаемые множества не являются выпуклыми, правомерно предположить, что дискриминантная функция, приводящая к наименьшим ошибкам классификации, не может быть линейной.

Если множества, используемые в качестве обучающих выборок, близко расположены друг к другу, то возрастает вероятность ошибочной классификации новых объектов, особенно в тех случаях, когда классифицируемый объект сильно удален от центров обоих множеств. Складывается ситуация, при которой распознавание объекта затруднено. Одним из возможных выходов в таком случае является пересмотр набора дискриминантных переменных.

Дискриминантный анализ можно использовать как метод прогнозирования (предсказания) поведения наблюдаемых единиц статистической совокупности на основе имеющихся стереотипов поведения аналогичных объектов, входящих в состав объективно существующих или сформированных по определенному принципу множеств (обучающих выборок).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Список  литературы

  1. Наследов А.Д. - Математические методы психологического исследования. Анализ и интерпретация данных.
  2. Е.В.Сидоренко - Методы математической обработки в психологии.

3. Многомерный статистический анализ в экономике. Под редакцией В.Н. Тамашевича. Москва.1999г.

4. Эконометрика и эконометрическое прогнозирование. Мухамедиев Б.М. Алматы. 2007г.

5. Многомерные статистические методы. Дубров А.М., Мхитарян В.С., Трошин Л.И. Москва. 2003г.

6. Эконометрика. Под редакцией Елисеевой И.И. Москва. 2005г.

 

 


 



Информация о работе Дискриминантный анализ