Автор работы: Пользователь скрыл имя, 13 Сентября 2013 в 08:54, курсовая работа
Цель аналитической работы с данными — определение ме-стонахождения объекта в «пространстве восприятия (субъектов)» и создание его образа. Имеется в виду, что непосредственно о самом объекте даже по значениям некоторого набора признаков нельзя судить достаточно надежно или полно.
Введение 4
1. Неметрические методы многомерного шкалирования 5
2. Модели поиска индивидуальных различий 16
3. Анализ предпочтений 27
Заключение 41
Список литературы 42
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ
БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ
«БАШКИРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
Экономический факультет
Кафедра «Математические методы в экономике»
Курсовая работа
по дисциплине «Многомерный статистический анализ»
на тему:
«Многомерное шкалирование в экономических исследованиях»
Выполнила: студентка 1 курса магистратуры гр. 1-ММАЭ
Зюзько Ю.А.
Руководитель: кандидат физ.-мат. наук, ст. преп. Ямилова Л.С.
«___»_________________2012г.
УФА 2012
Содержание
Введение 4
1. Неметрические методы многомерного шкалирования 5
2. Модели поиска индивидуальных различий 16
3. Анализ предпочтений 27
Заключение 41
Список литературы 42
Методы многомерного шкалирования (МШ) разрабатывались и применяются в практике для исследований сложных явлений и процессов, не поддающихся непосредственному описанию или моделированию- В основу теории многомерного шкалирования положена идея о возможности развертывания наблюдаемых объектов в некотором теоретическом пространстве, адекватно отображающем реальность.
В отличие от других статистических методов поиск координатного пространства в МШ осуществляется не по значениям самих характеризующих объекты признаков, а по данным, представляющим различия, или, наоборот, сходство этих объектов. Основным источником данных здесь являются в одних случаях эксперты, субъективно воспринимающие и оценивающие относительное расположение объектов наблюдения в реальных условиях, в других — результаты прямой регистрации сведений о состоянии и поведении объектов. Тривиально и больше распространено экспертное оценивание.
Цель аналитической работы
с данными — определение
Методы неметрического МШ применяют для обработки ранговых (порядковых) данных. Решающим условием, обеспечивающим адекватность аналитических выводов, здесь становится соответствие монотонных связей эмпирических и теоретических данных, т.е. если реально существует порядковая зависимость δij< δtl то в определяемом шкальном пространстве соответственно должно быть dij<dtl. Вид монотонности заранее неизвестен и методом проб подбирается функция, наилучшим образом описывающая эмпирические данные: линейная, степенная, показательная или логарифмическая.
Отобрав в качестве меры расстояния евклидову метрику (dе). можно записать равенство, задающее алгоритм поиска шкального пространства по Шепарду (1962 г.):
где — произвольная монотонная функция. Если, например,/~ линейная функция, приведенное равенство можно переписать в виде:
Более общий случай предполагает оценку различий объектов в m-мерном пространстве Минковского (подход Дж. Краскала, 1964 г.), тогда:
Универсальная модель неметрического МШ, построенная на метрике Минковского, легко позволяет перейти к другим моделям:
• с евклидовой метрикой, при т=2;
• с метрикой доминирования, при m→∞. Модель имеет вид:
,
т.е. расстояние между стимулами i и j определяется разностью координат только по одной оси, по которой величина разности максимальна;
с метрикой города (city-block , или l1-норма). Для этого случая предположение о монотонности данных формально записывается следующим образом:
Вне зависимости от выбора базовой модели для описания различий объектов методы неметрического МШ реализуются в последовательности, как это показано на рис. 1.1.
Рис. 1.1 Схема алгоритма неметрического МШ
Остановимся на основных алгоритмических шагах неметрического МШ:
Шаг 1. Получение матрицы различий, содержащей ранговые данные — характеристики непохожести анализируемых объектов.
Существуют различные приемы получения исходных ранговых данных, наиболее распространены в анализе из них следующие:
• метод последовательной рандомизации, его сущность в последовательно проводимом делении совокупности наблюдаемых объектов на группы. При первом делении появляются две группы — пары похожих объектов и пары непохожих объектов. Затем в каждой группе соответственно находят пары с наиболее и менее похожими объектами и т. д. На заключительном этапе получают п (п—1)/2 пар, ранжированных по степени сходства (или наоборот — «непохожести»);
• метод исходной (якорной) точки, из общего числа п объектов на первом шаге отбирают один и его положение в совокупности принимается за исходное относительно других объектов. Степень сходства всех прочих объектов с первым (якорным) оценивается экспертами с присвоением ранга. На следующем шаге якорным становится другой, следующий из совокупности объект. И так для всех объектов. В общем получают п(n—1) ранговых оценок парных сходств, по которым легко строится матрица различий А;
• метод рейтинговой оценки. Экспертам предлагается шкала с некоторым числом делений (обычно 7—9), позволяющих оценивать каждую пару объектов по степени их сходства, например, как это показано на рисунке:
Предположим, что одним
из перечисленных методов
Данные табл. 1.1 подтверждают, что для пяти наблюдаемых объектов будет получено именно 10, то есть п(n—1) ранговых оценок.
Таблица 1.1. Порядковые характеристики различий пяти государств с учетом их экономического и политического положения А
Армения |
Беларусь |
Россия |
Таджикистан |
Литва | |
Армения1 |
— |
10 |
9 |
3 |
7 |
Беларусь |
10 |
— |
1 |
5 |
2 |
Россия |
9 |
1 |
- |
4 |
6 |
Таджикистан |
3 |
5 |
4 |
- |
8 |
Литва |
7 |
2 |
6 |
8 |
- |
Для следующего алгоритмического шага данные о Различиях пяти стран можно оставить в первоначальном виде или преобразовать их в количественные. Другими словами, возможна их оцифровка. В своей книге М. Дэйвисон [32, с. 107] описывает надежный и одновременно простой прием перехода к Матрице с количественными характеристиками различий: вначале на ранговых данных строится матрица корреляций R, оценку различий, т.е. элементы матрицы Д, определяются затем с учетом имеющихся величин парных коэффициентов корреляций rij по формуле:
Шаг 2. Поиск стартовой конфигурации. Эта проблема может быть решена с использованием разнообразных методов и подходов: простой ординации Орлочи, алгоритмов Торгерсона, Краскала и других, даже простым подбором случайных чисел.
В примере по данным табл. 1.1 первые приблизительные оценки координат вычислены методом главных компонент. Получены нестандартизованные характеристики по первым двум координатным осям, объясняющим более 98% общей Дисперсии значений стимульных признаков (табл. 1.2).
Координатные оценки стимулов позволяют дать названии каждой из шкал. По оси X1 на одном конце наибольшую факторную нагрузку имеют Армения и Таджикистан, на другом — Беларусь и Литва; очевидно, что эта ось вытянута в направлении Юг-Север. Аналогичного рода рассуждения приводят к мысли, что ось X2 определяется направлением Восток-Запад,
Таблица 1.2. Стартовая конфигурация для неметрического шкалирования пяти государств, республик бывшего СССР
Стимул |
Первая координатная ось Х1 |
Вторая координатная ось Х2 |
Армения Беларусь Россия Таджикистан Литва |
-0,974 0,958 0,701 -0,690 0,772 |
0,217 -0,254 -0,710 -0,697 0,610 |
Шаг 3. Стандартизация оценок координат и расстояний. Стандартизация проводится с целью сохранить пропорции ортонормированного стимульного пространства и избежать вырожденных решений, когда пространство стимулов сжимается до размеров точки и анализ не дает сколько-нибудь значимых результатов. Например, когда несколько стимулов получают одинаковые оценки координат или их координатные оценки близки нулю, т.е. расположены вблизи начала системы координат. Стимулы в таком теоретическом пространстве шкал как бы сливаются и становятся неразличимы для исследователя.
Допускаются различные варианты стандартизации. Выберем хорошо знакомый способ:
Стандартизовав координаты стимулов и рассчитав по ним расстояния между стимулами, получим элементы матрицы стандартизованных оценок расстояний. Величины расстояний в пространстве шкал Х1 X2 будем оценивать по формуле евклидовой метрики:
Стандартизованные оценки, результаты вычислений сведем в табл. 1.3.
Т а б л и ц а 1.3. Нестандартизованные и стандартизованные оценки координат и расстояний для пяти государств
Нестандартизованные оценки | |
координат |
расстояний dij |
X1 Х2 Армения -0,974 0,217 Беларусь -0,958 -0,254 Россия 0.701 -0,710 Таджикистан -0,690 -0,697 Литва 0,772 0,610 |
0 1,989 1,914 0,962 1,789 1,989 0 0,523 1,703 0,884 1,914 0,523 0 1,391 1,322 0,962 1,703 1,391 0 1,961 1,789 0,884 1,322 1,961 0 |
Стандартизованные оценки | |
координат |
расстояний dij |
X1 Х2 Армения -1,384 0,724 Беларусь -0,988 -0,164 Россия 0,672 -1,026 Таджикистан 0,672 -1,000 Литва 0,760 1,466 |
0 2,532 2,700 1,759 2,269 2,532 0 0,918 2,190 1,646 2,700 0,918 0 1,708 2,507 1,759 2,190 1,708 0 3,051 2,269 1,646 2,507 3,051 0 |
Шаг 4. Неметрический этап. Алгоритмический шаг предназначен для упорядочения оценок расстояний между стимулами.
В теоретическом пространстве шкал Xk монотонность исходных данных может нарушаться (рис. 1.2). Корректировка теоретических величин расстояний di} производится при неизменных оценках координат стимулов и таким образом, чтобы восстановить общую тенденцию к возрастанию в исходных данных о различиях.
рис. 1.2. Отношения ранговых порядков стимулов по исходным и теоретическим данным на первой итерации
Рис. 1.2 построен по данным рассматриваемого примера и наглядно показывает возникшее несоответствие в изменении исходных и теоретических ранговых оценок (табл. 1.4). По оси δij отложены фактические значения характеристик различий, по оси — значения, принимаемые в теоретическом пространстве шкал X1, Х2. Линия L1— прямая монотонной функции равномерно возрастающих оценок δij, линия L2 построена с учетом отклонений эмпирических ранговых оценок от теоретических. Прописными буквами обозначены пары стран.
Информация о работе Многомерное шкалирование в экономических исследованиях