Автор работы: Пользователь скрыл имя, 22 Декабря 2013 в 20:58, реферат
Дuскрuмuнантный анализ - это раздел математической статистики, содержанием которого является разработка методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам. Например, разбиение совокупности предприятий на несколько однородных групп по значениям каких-либо показателей производственно-хозяйственной деятельности.
Введение
1. Дискриминантные функции и их геометрическая интерпретация
2. Расчет коэффициентов дискриминантной функции
3. Классификация при наличии двух обучающих выборок
4. Классификация при наличии k обучающих выборок
5.Взаимосвязь между дискриминантными переменными и дискриминантными функциями
Заключение
Список использованной литературы
f(х) = + + (18)
Коэффициенты , и вычисляются по формуле:
A= ( - ), (19)
где и - векторы средних в первой и второй группах; А - вектор коэффициентов; - матрица, обратная совместной ковариационной матрице.
Для определения совместной ковариационной матрицы нужно рассчитать матрицы и . Каждый элемент этих матриц представляет собой разность между соответствующим значением исходной переменной и средним значением этой переменной в данной группе (k - номер группы):
Тогда совместная ковариационная матрица будет равна:
, (20)
где , - число объектов l-й и 2-й группы;
(21)
Обратная матрица будет равна:
.(22)
Отcюда находим вектор коэффициентов дискриминантной функции по формуле:
(23)
т.е. =-185,03, =1,84, =4,92.
Подставим полученные значения коэффициентов в формулу (18) и рассчитаем значения дискриминантной функции для каждого объекта:
(24)
Тогда константа дискриминации С будет равна:
С = (94,4238-70,0138) = 12,205.
После получения константы дискриминации можно проверить правильность распределения объектов в уже существующих двух классах, а также провести классификацию новых объектов.
Рассмотрим, например, объекты с номерами 1, 2, З, 4. Для того чтобы отнести эти объекты к одному из двух множеств, рассчитаем для них значения дискриминантных функций (по трем переменным):
= -185,03 х 1,07 + 1,84 х 93,5 + 4,92 х 5,30 = 0,1339,
= -185,03 х 0,99 + 1,84 х 84,0 + 4,92 х 4,85 = -4,7577,
= -185,03 х 0,70 + 1,84 х 76,8 + 4,92 х 3,50 = 29,0110,
= -185,03 х 1,24 + 1,84 х 88,0 + 4,92 х 4,95 = -43,1632.
Таким образом, объекты 1, 2 и 4 относятся ко второму классу, а объект 3 относится к первому классу, так как < с, < с, > с, < с.
4. Классификация при наличии k обучающих выборок
При необходимости можно проводить разбиение множества объектов на k классов (при k>2). В этом случае нужно рассчитать k дискриминантных функций, так как классы будут отделяться друг от друга индивидуальными разделяющими поверхностями. На рис. 3 показан случай с тремя множествами и тремя дискриминантными переменными:
Рис.3 Три класса объектов и разделяющие их прямые
– первая, – вторая, - третья дискриминантные функции.
Пример 2. Рассмотрим случай, когда существует три класса (множества) объектов. Для этого к двум классам из предыдущего примера добавим еще один. В этом случае будем иметь уже три матрицы исходных данных:
(25)
Если в процессе дискриминации используются все четыре переменные ( , , , ) то для каждого класса дискриминантные функции имеют вид:
(26)
Определим теперь, к какому классу можно отнести каждое из четырех наблюдений, приведенных в табл.2:
Таблица 2- Исходные данные
Номер наблюдения |
|
|
|
|
1 |
1,07 |
93,5 |
5,30 |
5385 |
2 |
0,99 |
84,0 |
4,85 |
5225 |
3 |
0,70 |
76,8 |
3,50 |
5190 |
4 |
1,24 |
88,0 |
4,95 |
6280 |
Подставим соответствующие значения переменных , , , в выражение (26) и вычислим затем разности:
- =-20792,082+31856,41=11064,328 0,
-
=-20792,082+40016,428=19224,
Следовательно, наблюдение
1 в табл.2 относится к первому
классу. Аналогичные расчеты
Чтобы показать влияние числа дискриминантных переменных на результаты классификации, изменим условие последнего примера. Будем использовать для расчета дискриминантных функций только три переменные: , , . В этом случае выражения для дискриминантныx функций будут иметь вид:
(27)
Подставив в эти выражения значения исходных переменных для классифицируемых объектов, нетрудно убедиться, что все они попадают в третий класс, так как
- =-26,87 0,
- =-37,68 ,
- =-10,809 .
Таким образом, мы видим, что
изменение числа переменныx сильно
влияет на результат дискриминантного
анализа. Чтобы судить о целесообразности
включения (удаления) дискриминантной
переменной, обычно используют специальные
статистические критерии, позволяющие
оценить значимость ухудшения или
улучшения разбиения после
5. Взаимосвязь
между дискриминантными
Для оценки вклада отдельной
переменной в значение дискриминантной
функции целесообразно
·стандартизовать значения исходных переменных таким образом, чтобы их средние значения были равны нулю, а' дисперсии - единице;
·вычислить стандартизованные коэффициенты исходя из значений коэффициентов в нестандартной форме:
·
(28)
где р - общее число исходных переменных, т - число групп, - элементы матрицы ковариаций:
(29)
где i - номер наблюдения, j - номер переменной, k - номер класса, - количество объектов в k-м классе.
Стандартизованные коэффициенты применяют в тех случаях, когда нужно определить, какая из используемых переменных вносит наибольший вклад в величину дискриминантной функции. В примере с двумя классами, рассмотренном выше, дискриминантная функция имела вид:
f= -185,03Х1 + 1,84Х2 + 4,92Хз .
Следовательно, наибольший вклад в величину дискриминантной функции вносит переменная X1.
Определим значения стандартизованных коэффициентов и запишем новое значение дискриминантной функции:
(30)
где =
Стандартизованные коэффициенты дискриминантной функции тоже показывают определяющее влияние первой переменной на величину дискриминантной функции.
Помимо определения вклада каждой исходной переменной в дискриминантную функцию, можно проанализировать и степень корреляционной зависимости между ними.
Для оценки тесноты связи
между отдельными переменными и
дискриминантными функциями служат
коэффициенты корреляции, которые называются
структурными коэффициентами. Повеличине
структурных коэффициентов
Покажем на примере 1 расчет структурных коэффициентов в целом для трех классов. Исходные данные для расчета коэффициентов представлены в табл. 3. Вычисленные структурные коэффициенты (R f) имеют следующие значения:
Rx1f= 0,650 RX2f = -0,576 RХЗf = -0,506 Rx4f = -0,951
Rx1jl = -0,036 Rx2j1 = 0,486 RхЗjl = -0,211 Rx4j1 = 0,217
Rx1f2 = -0,728 Rx2f2 = 0,878 RХЗf2 = 0,511 Rx4f2 = -0,998
Rx1fJ = -0,713 Rх1JЗ = 0,258 RхЗfJ = -0,122 Rx4fJ = -0,998.
Таблица 3 – Исходные данные
Номер |
Х1 |
Х2 |
ХЗ |
Х4 |
|
наблюдения | |||||
1 |
0,50 |
94,0 |
8,50 |
6707 |
-31973,089 |
2 |
0,67 |
75,4 |
8,79 |
5037 |
-18122,238 |
3 |
0,68 |
85,2 |
9,10 |
3695 |
-6930,930 |
4 |
0,55 |
98,8 |
8,47 |
6815 |
-32812,109 |
5 |
1,52 |
81,5 |
4,95 |
3211 |
-13434,229 |
6 |
1,20 |
93,8 |
6,95 |
2890 |
-10812,723 |
7 |
1,46 |
86,5 |
4,70 |
2935 |
-11139,514 |
8 |
1,70 |
80,0 |
4,50 |
3510 |
-14272,295 |
9 |
1,65 |
85,0 |
4,80 |
2900 |
-9573,076 |
10 |
1,49 |
78,5 |
4,10 |
2850 |
-9348,104 |
Если рассматривать абсолютные значения структурных коэффициентов, видно, например, что наибольшая зависимость функций наблюдается от переменной , а функций и - от переменной .
Различные знаки у структурных
коэффициентов можно
Заключение
Дискриминантный анализ так
же, как и кластерный анализ, относится
к методам многомерной
Основными проблемами дискриминантного анализа являются, во-первых, определение набора дискриминантных переменных, Bo-вторых, выбор вида дискриминантной функции. Существуют различные критерии последовательного отбора переменных, позволяющих получить наилучшее различение множеств. Можно также воспользоваться алгоритмом пошагового дискриминантного анализа, который в литературе подробно описан. После уточнения оптимального набора дискриминантных переменных исследователю предстоит решить вопрос о выборе вида дискриминантной функции, Т.е. выбрать вид разделяющей поверхности. Чаще всего на практике применяют линейный дискриминантный анализ. В этом случае дискриминантная функция представляет собой либо прямую, либо плоскость (гиперплоскость).
Линейная дискриминантная функция не всегда подходит в качестве описания разделяющей поверхности между множествами. Например, в тех случаях, когда различаемые множества не являются выпуклыми, правомерно предположить, что дискриминантная функция, приводящая к наименьшим ошибкам классификации, не может быть линейной.
Если множества, используемые
в качестве обучающих выборок, близко
расположены друг к другу, то возрастает
вероятность ошибочной
Дискриминантный анализ можно
использовать как метод прогнозирования
(предсказания) поведения наблюдаемых
единиц статистической совокупности на
основе имеющихся стереотипов