Автор работы: Пользователь скрыл имя, 29 Апреля 2014 в 18:14, курсовая работа
Цель анализа различий – выявление групп респондентов, статистически значимо различающихся между собой. Все статистические процедуры, позволяющие выявить такие различия (t-тесты и дисперсионный анализ), сравнивают респондентов на основании средних значений переменных.
В практике маркетинговых и статистических исследований достаточно часто встречаются ситуации, когда в ходе предварительного анализа (на основании опыта исследователя или статистического анализа) появляется гипотеза о разделении всей выборочной совокупности на определенные группы на основании одного или нескольких признаков. Линейное распределение может показывать, что данные группы респондентов действительно различаются, однако, визуального различия между категориями недостаточно для того, чтобы с уверенностью констатировать наличие статистически значимого различия. На установление статистической значимости различий между целевыми группами респондентов и направлены процедуры, объединенные под названием анализ различий.
Министерство образования Республики Беларусь
Учреждение образования
"Витебский государственный технологический университет"
Кафедра информатики
Курсовая работа
по предмету:
Компьютерные информационные технологии
на тему:
«Исследование возможностей статистических пакетов для дисперсионного анализа данных ( на примере ИС Statistica и ПК SPSS)»
Витебск
2007
ВВЕДЕНИЕ
Цель анализа различий – выявление групп респондентов, статистически значимо различающихся между собой. Все статистические процедуры, позволяющие выявить такие различия (t-тесты и дисперсионный анализ), сравнивают респондентов на основании средних значений переменных.
В практике маркетинговых и статистических исследований достаточно часто встречаются ситуации, когда в ходе предварительного анализа (на основании опыта исследователя или статистического анализа) появляется гипотеза о разделении всей выборочной совокупности на определенные группы на основании одного или нескольких признаков. Линейное распределение может показывать, что данные группы респондентов действительно различаются, однако, визуального различия между категориями недостаточно для того, чтобы с уверенностью констатировать наличие статистически значимого различия. На установление статистической значимости различий между целевыми группами респондентов и направлены процедуры, объединенные под названием анализ различий.
Существует два основных метода определения различий между группами: t-тесты и дисперсионный анализ. Первый метод прост в использовании, однако, в связи с ограничением на количество тестируемых групп, t-тесты не могут применяться для решения всех задач, возникающих при проведении анализа. Для преодоления данного ограничения используется дисперсионный анализ, который является универсальной методикой для определения статистически значимых различий между любым числом групп респондентов.
Одномерный дисперсионный анализ исследует влияние одной или нескольких независимых переменных на одну зависимую. Одномерный дисперсионный анализ может быть однофакторным (one-way ANOVA) или многофакторным (n-way Anova). В первом случае есть только одна независимая переменная; во втором – несколько.
Однофакторный одномерный дисперсионный анализ можно проводить двумя способами: при помощи специальной процедуры Оne-way ANOVA (меню Analyze / Compare Means / Оne-way ANOVA ) или посредством обобщенной линейной модели (меню Analyze / General Linear Model / Univariate). Второй прием является более универсальным и обладает полным объемом функциональности первого, поэтому в дальнейшем я буду использовать его.
Необходимо отметить, что для проведения одномерного дисперсионного анализа на практике существует одно весьма существенное ограничение. При увеличении количества факторов (т.е. независимых переменных) в модели сложность интерпретации результатов расчета возрастает многократно. Так, однофакторный анализ является наиболее простым. Его результаты понятны сразу при взгляде на итоговую таблицу. Двухфакторный анализ намного сложнее в интерпретации – чтобы понять его результаты приходится много времени потратить, разбираясь в таблицах и графиках. А четырех- и мультифакторные модели в большинстве своем могут успешно интерпретироваться только квалифицированными исследователями. Таким образом, для практических целей лучше воздержаться от исследования большого числа взаимодействий между факторами и ограничиться несколькими наиболее важными.
В этом разделе я рассмотрю одно- и двухфакторные модели одномерного дисперсионного анализа.
Табл. Исходные данные
Кратность покупок |
Возраст |
Пол |
Кратность покупок |
Возраст |
Пол | |||
1 |
2 |
1 |
1 |
41 |
5 |
3 |
2 | |
2 |
4 |
1 |
1 |
42 |
1 |
3 |
1 | |
3 |
2 |
1 |
1 |
43 |
2 |
3 |
1 | |
4 |
4 |
1 |
1 |
44 |
3 |
3 |
1 | |
5 |
3 |
1 |
2 |
45 |
2 |
3 |
1 | |
6 |
2 |
1 |
1 |
46 |
2 |
3 |
1 | |
7 |
1 |
1 |
1 |
47 |
2 |
3 |
1 | |
8 |
2 |
1 |
2 |
48 |
3 |
3 |
2 | |
9 |
2 |
1 |
1 |
49 |
3 |
3 |
2 | |
10 |
2 |
1 |
1 |
50 |
4 |
3 |
2 | |
11 |
3 |
1 |
2 |
51 |
2 |
3 |
2 | |
12 |
1 |
1 |
2 |
52 |
3 |
3 |
2 | |
13 |
3 |
1 |
1 |
53 |
3 |
3 |
2 | |
14 |
2 |
1 |
2 |
54 |
1 |
3 |
1 | |
15 |
3 |
1 |
1 |
55 |
2 |
3 |
2 | |
16 |
3 |
1 |
2 |
56 |
3 |
3 |
1 | |
17 |
3 |
1 |
2 |
57 |
3 |
3 |
2 | |
18 |
2 |
1 |
2 |
58 |
3 |
3 |
1 | |
19 |
2 |
1 |
2 |
59 |
2 |
3 |
2 | |
20 |
3 |
1 |
2 |
60 |
2 |
3 |
1 | |
21 |
2 |
2 |
2 |
61 |
3 |
4 |
1 | |
22 |
3 |
2 |
2 |
62 |
3 |
4 |
2 | |
23 |
4 |
2 |
2 |
63 |
1 |
4 |
2 | |
24 |
3 |
2 |
1 |
64 |
3 |
4 |
2 | |
25 |
2 |
2 |
1 |
65 |
1 |
4 |
1 | |
26 |
2 |
2 |
1 |
66 |
2 |
4 |
2 | |
27 |
2 |
2 |
2 |
67 |
2 |
4 |
2 | |
28 |
2 |
2 |
1 |
68 |
1 |
4 |
1 | |
29 |
2 |
2 |
1 |
69 |
1 |
4 |
1 | |
30 |
5 |
2 |
1 |
70 |
2 |
4 |
2 | |
31 |
4 |
2 |
2 |
71 |
1 |
4 |
1 | |
32 |
2 |
2 |
2 |
72 |
1 |
4 |
1 | |
33 |
3 |
2 |
1 |
73 |
1 |
4 |
1 | |
34 |
2 |
2 |
2 |
74 |
1 |
4 |
2 | |
35 |
1 |
2 |
2 |
75 |
1 |
4 |
2 | |
36 |
2 |
2 |
1 |
76 |
1 |
4 |
1 | |
37 |
2 |
2 |
1 |
77 |
1 |
4 |
1 | |
38 |
3 |
2 |
2 |
78 |
1 |
4 |
2 | |
39 |
4 |
2 |
2 |
79 |
1 |
4 |
1 | |
40 |
1 |
2 |
1 |
80 |
1 |
4 |
2 |
Возрастные группы | ||
1 |
до 25 лет | |
2 |
26-40 лет | |
3 |
41-55 лет | |
4 |
старше 55 лет | |
Пол | ||
1 |
муж. | |
2 |
жен. |
1.1 Однофакторный одномерный дисперсионный анализ
Задача:
Исследуется покупательское поведение потребителей диетических хлебцев. Респонденты разделяются на целевые группы в зависимости от их возраста. Одним из вопросов анкеты является: «Сколько пачек диетических хлебцев в среднем Вы покупаете за одно посещение магазина?» с вариантами ответа: 1 пачка, 2 пачки, 3 пачки, …, 10 пачек, больше 10 пачек. Требуется выяснить, насколько значимо различается кратность покупок в различных возрастных группах респондентов.
Диалоговое окно одномерного дисперсионного анализа запускается при помощи меню Analyze / General Linear Model / Univariate. Из левого списка всех доступных переменных в поле для зависимой переменной Dependent Variable я переношу «Кратность покупок», а в область для независимых переменных Fixed Factor(s) - «Возраст». (Т.к. в этой задаче переменна «Возраст» содержит все возможные группы респондентов, я поместила ее в область фиксированных факторов).
Для того, чтобы определить какие именно группы отличаются от других, существуют дополнительные статистические тесты, задаваемые при помощи кнопки Post Hoc. В область Post Hoc Tests я переношу фактор «Возраст», который необходимо подвергнуть тестированию на предмет установления различий между его группами.
Теперь надо установить равенство / неравенство дисперсий. Т.к. я не знаю, равны ли дисперсии, я вывожу тесты для равных и неравных дисперсий, чтобы сократить количество итераций при проведении дисперсионного анализа. SPSS предлагает много различных дополнительных тестов, помогающих определить различия между группами исследуемых переменных. Однако использовать их все нецелесообразно. Поэтому я ограничусь наиболее популярным и универсальным тестом Scheffe для равных дисперсий и тестом Tamhane’s T2 – для неравных дисперсий. (рис.1).
Рис.1 Диалоговое окно Univariate: Post Multiple Comparisons for Observed Means
Теперь в меню Univariate: Options выбираю тест Levene на равенство дисперсий (параметр Homogeneity tests) (рис. 2 ).
Т.к. переменная «Возраст» имеет больше двух категорий (4), специально выводить для нее средние значения (область Display Means for) не имеет смысла (они будут выведены в таблице Homogenous Subsets).
Рис.2 Диалоговое окно Univariate: Options
В окне SPSS Viewer выводятся результаты расчетов:
Выводы:
Первой практически значимой таблицей является результат теста на равенство дисперсий зависимой и независимой переменной Levene’s Test of Error Variances. В столбце Sig. данной таблице содержится единственное интересующее меня значение – это статистическая значимость тестовой статистики F (Sig.=0,501). T.к. значение в данном столбце показывает незначимость F – значит, дисперсии равны, и в дальнейшем я буду анализировать результаты расчета теста Scheffe (предполагающего равенство дисперсий).
Следующая таблица – это Tests of Between-Subjects Effects. Данная таблица показывает наличие / отсутствие значимых различий между категориями исследуемых переменных. Первое, на что следует обратить внимание – это величина , отражающая долю совокупной дисперсии в зависимой переменной, описываемой статистической моделью. Другими словами, это та часть вариации зависимой переменной, которую можно объяснить на основании независимой переменной. Естественно. что чем меньше независимых переменных, тем меньше величина , и наоборот.
В этой задаче величина = 0,218, но для дисперсионного анализа значения можно просто проигнорировать, т.к. они не важны для практического использования полученной модели.
Второе. на что следует обратить внимание при интерпретации таблицы Tests of Between-Subjects Effects, - это значимость различия между группами независимой переменной. Этот вывод следует из значения на пересечении строки, содержащей соответствующую независимую переменную, и столбца Sig. . В этой задаче имеет место статистически высоко значимое различие между различными возрастными группами респондентов по кратности покупок диетических хлебцев (значимость F-статистики у переменной «Возраст» < 0,001 ).
После того, как я установила наличие статистически значимого различия между возрастными группами респондентов на основании кратности покупок диетических хлебцев, необходимо определить, какие из четырех имеющихся возрастных групп отличаются от остальных и каким образом ( в большую или меньшую сторону).
Это делается с помощью таблицы Multiple Comparisons. Т.к. я выяснила, что дисперсии оказались равными, в этой таблице я буду рассматривать только ту ее часть, в которой приведены расчеты по методу Scheffe. ( Тест Tamhane я бы применяла, только если бы дисперсии были неравны).
Итак, в первой части таблицы (Scheffe) представлено сравнение различий между каждой из четырех возрастных категорий с остальными категориями. На основании этих данных я определяю те группы, которые значимо отличаются от других. Так, из столбца Sig. ( статистическая значимость ) видно, что только группа респондентов старше 55 лет статистически значимо отличается от всех стальных. Остальные целевые группы не отличаются друг от друга. При этом из столбца Mean Difference можно видеть, насколько отличается среднее значение той или иной группы от среднего значения других групп (звездочками отмечены значимые различия при 95%-ном доверительном уровне).
Наконец, в последней таблице Homogeneous Subsets представлена однозначная картина различий между группами независимой переменной. Здесь все возрастные группы разделены на 2 категории на основании различий в кратности покупок. В первую категорию входит целевая группа респондентов старше 55 лет, во вторую – все остальные возрастные группы (т.е. респонденты младше 55 лет).
Также из рассматриваемой таблицы можно сделать вывод о направлении различия между выделенными категориями. Так, в этой задаче я могу заключить, что респонденты старше 55 лет покупают диетические хлебцы в меньших объемах, чем респонденты младше этого возраста. В точности определить размер или величину различия можно, только если в качестве зависимой переменной выступает интервальная переменная. Т.к. переменная «Кратность покупок» относится к порядковой шкале, точный вывод о величине различия сделать нельзя.
1.2 Двухфакторный одномерный дисперсионный анализ
Исходные данные остаются такими же, как и в предыдущем примере, однако теперь я буду устанавливать различие в кратности покупок диетических хлебцев возрастными и половыми группами (переменная «Пол»). Для этого вновь открываю диалоговое окно Univariate и добавляю в область фиксированных факторов переменную «Пол».
В диалоговом окне Options я добавляю переменную «Пол», а так же ее взаимодействие с переменной «Возраст» в область Display Means for, что позволит вывести средние значения по каждой группе мужчин и женщин при определении направления различия между ними. После этого запускаю процедуру дисперсионного анализа на выполнение (рис.3)
Рис.3 Диалоговое окно Univariate: Options
В окне SPSS Viewer выведены результаты расчетов:
Результаты расчетов отличаются от результатов предыдущего примера. Во-первых, тест Levene теперь является значимым (Sig.=0,397), из чего следует вывод о неравенстве дисперсий. Во-вторых, в таблице Tests of Between-Subjects Effects появились результаты расчета значимости F-статистики для переменной «Пол», а также для взаимодействия «Возраст»*«Пол». Как видно, мужчины и женщины не имеют статистически значимых различий по кратности покупок диетических хлебцев (Sig.=0,046). То же относится и к взаимодействию «Возраст»*«Пол» (Sig.=0,349). А переменная «Возраст» сохранила свое значимое влияние на зависимую переменную (Sig.=0,000).