Программные средства, автоматизирующие статистическую обработку данных

Автор работы: Пользователь скрыл имя, 17 Декабря 2012 в 18:39, реферат

Краткое описание

Для будущего учителя очень важно уметь анализировать результаты своей педагогической деятельности, а также грамотно планировать, проводить психолого-педагогические эксперименты и обрабатывать их результаты.

Содержание

Введение 3
Математическая статистика как метод научного исследования 4
Методы статистического исследования 5
Математическая статистика в психологии и педагогике 8
Программные средства, автоматизирующие статистическую обработку данных 18
Заключение 30
Список литературы 31
ПРИЛОЖЕНИЯ 32

Вложенные файлы: 1 файл

Реферат Крюковой А.А..doc

— 654.50 Кб (Скачать файл)

Пример 3. Установлено, что испытуемые по-разному относятся к наказаниям, которые совершают по отношению к их детям разные люди. Определить тенденцию согласия о допустимости телесных наказаний по результатам оценки степени согласия в психогенном эксперименте, в котором получены следующие результаты:

Испытуемые

Условие 1: «Я сам наказываю» / ранг

Условие 2: «Бабушка наказывает»  / ранг

Условие 3: «Учительница наказывает» / ранг

1

2

3

4

5

6

7

8

9

10

11

12

4 / 1

5 / 1

1 / 2

3 / 1,5

4 / 2

6 / 1

5 / 1

6 / 1,5

3 / 1,5

2 / 2

7 / 1

5 / 1,5

2 / 2

4 / 2,5

1 / 2

3 / 1,5

5 / 1

5 / 2

3 / 2

6 / 1,5

3 / 1,5

2 / 2

5 / 2

5 / 1,5

1 / 3

4 / 2,5

1 / 2

2 / 3

1 / 3

3 / 3

4 / 3

4 / 3

1 / 3

2 / 2

4 / 3

3 / 3

Сумма рангов

I 17

II 21,5

III 33,5


Решение. Проранжируем индивидуальные ранги каждого испытуемого по 3 условиям и запишем их в правые три колонки таблицы, а суммы рангов запишем в нижней строке. Проверим, что общая сумма рангов совпадает с расчетной

Определим эмпирическое значение критерия:

.

Найдем в приложении   критическое значение Lкр для n=12 испытуемых, количества условий c=3 и уровня значимости Поскольку Lэмп=160,5<156=Lкр, то высказанная тенденция отклоняется.

 

Алгоритм применения критерия λ Колмогорова-Смирнова для сопоставления эмпирического и теоретического (другого эмпирического) распределений

  1. Записать в таблицу наименование разрядов и полученные эмпирические частоты в два столбца.
  2. Подсчитать эмпирические относительные частоты и занести их в 3 и 4-й столбцы.
  3. Подсчитать накопленные эмпирические относительные частоты: ,

Полученные суммы записать в 5-й  и 6-й столбцы.

  1. Записать в 7-й столбец абсолютные величины разностей .
  2. Определить .
  3. Подсчитать значения критерия λ по формуле .
  4. По таблице приложения 5 определить, какому уровню статистической значимости p соответствует λэмп.

Если  (=0,05) или (=0,01), то различия между распределениями существенны на соответствующем уровне значимости.

Пример 4. В проективной методике Х. Хекхаузена испытуемому последовательно предъявляются 6 картин. Всякий раз он сначала рассматривает картину в течение 20 секунд, а затем в течение 5 минут пишет по ней рассказ. При обследовании 113 студентов были получены эмпирические распределения словесных формулировок, отражающих мотивы «надежда на успех» и «боязнь неудачи», которые приведены в таблице.

Название картины

Количество вербальных реакций, отражающих «надежду»

f1

f2

Накопленный эмпирический опыт, частота

Разность абс.

 

«надежда на успех»

«боязнь неудачи»

   

dj

  1. «Мастер измеряет деталь»

106

138

0,183

0,267

0,183

0,267

0,084

  1. «Преподаватель и ученик»

102

180

0,176

0,349

0,359

0,616

0,257

  1. «В цехе у машины»

108

34

0,186

0,066

0,545

0,682

0,137

  1. «У двери директора»

50

87

0,086

0,169

0,631

0,851

0,22

  1. «Человек в бюро»

99

57

0,171

0,11

0,802

0,961

0,159

  1. «Улыбающийся юноша»

115

20

0,198

0,039

1,000

1,000

0

Всего

580

516

1,0

1,0

     

Можно ли утверждать, что рассматриваемые  картины обладают разной побуждающей  силой в отношении мотивов: а) «надежда на успех»; б) «боязнь неудачи»?

  1. dmax=0,257 приходится на 2-ю картину.
  2. .
  3. По таблице приложения 5 опредяем уровень статистической значимости полученного значения p=0.

и попадает в зону значимости.

Пример 5. Найдите корреляционную матрицу по результатам исследования познавательных особенностей родителей детей с задержкой психического развития, количественные результаты которого в процентах представлены в таблице.

Познавательные процессы

Среднее значение результатов  детей 

Х

Среднее значение результатов  матерей 

Y

Среднее значение результатов  отцов 

Z

Показатели концентрации внимания

40,6

40,0

50,7

Показатели опосредованно-непосредственного  запоминания

45,9

48,3

47,4

Показатели непроизвольно-произвольного  запоминания

47,3

46,7

49,1

Показатели уровня логичности мышления

47,7

49,2

51,6

Показатели уровня обобщения мышления

44,5

45,7

48,1


Решение.

    1. Найдем выборочные средние для значений результатов детей, матерей и отцов

; ; .

2) Найдем выборочные средние квадратические отклонения

Найдем выборочные средние квадратические отклонения

.

Аналогично находим  и ;

 и  .

 

3) Вычислим выборочные ковариации

,

; .

4) Найдем выборочные коэффициенты  корреляции и запишем их в  корреляционную матрицу

; ; .

Программные средства, автоматизирующие статистическую обработку данных

В последнее время получили широкое  распространение программные средства или информационные системы, предназначенные для автоматизации работ статистической обработки данных, которые позволяют собирать, хранить и обрабатывать разнородные массивы данных с использованием единой информационной базы. [9]

Все программы статистической обработки  данных можно разделить на профессиональные, полупрофессиональные (популярные) и специализированные. Статистические программы относятся к наукоемкому программному обеспечению, цена их часто недоступна индивидуальному пользователю. Профессиональные пакеты имеют большое количество методов анализа, популярные пакеты – количество функций, достаточное для универсального применения. Специализированные же пакеты ориентированы на какую-либо узкую область анализа данных. Создатели программных статистических пакетов заявляют, что их продукт превосходит аналоги. Отсутствие у большинства исследователей времени для освоения нескольких программ, делает непростым ее выбор.

В нашей стране наиболее распространение  получили следующие статистические пакеты:

    • STATISTICA;
    • SPSS;
    • Deductor.

Рассмотрим их подробнее.

Пакет прикладных программ STATISTICA (1-3) – универсальная система анализа данных, разработанная компанией StatSoft, построенная по модульному принциу, каждый модуль выполняет определённый набор функций и может быть использован автономно. Основные возможности пакета:

  • реализует широкий набор математических методов;
  • дает возможность представить графическую интерпретацию результатов (в графиках типа 2D, 3D, пиктограммах или в разработанных в собственном дизайне графиках);
  • осуществляет поддрежку всех стандартов современных офисных приложений (импорт данных из электронных таблиц, в том числе и из MS Excel, экспорт диаграмм в приложения MS Office и др.);
  • позволяет расширять возможности пакета за счёт встроенного языка программирования Statistica Visual Basic.

Пакет STATISTICA может применяться в разнообразных сферах деятельности как для анализа, так и для прогнозирования результатов. Кроме этого, пакет STATISTICA является базовым статистическим пакетом в большинстве вузов России, служит для обучения методам статистического анализа.

Пакет прикладных программ SPSS (Statistical Package for Social Science) /4-6/ – статистический пакет, разработанный компанией SPSS Inc, предназначенный для работы в операционной системе MS Windows. Является пакетом обработки и анализа социологических данных. Основные возможности пакета:

  • реализует набор математических методов статистической обработки данных;
  • осуществляет доступ к территориально распределенным данным и позволяет объединять несколько баз данных;
  • формирует нестандартные отчеты, позволяющие оценить данные с разных точек зрения;
  • осуществляет настройку интерфейса и процедур работы с данными с помощью встроенного языка сценариев;
  • поддерживает связь с большинством форматов данных и обмен данными с другими приложениями MS Windows.

Пакет прикладных программ Deductor /7-8/–  статистический пакет, разработанный  фирмой Base Group Labs, состоит из 3-х частей: многомерного хранилища данных Deductor Warehouse, аналитического приложения Deductor Studio и рабочего места конечного пользователя Deductor Viewer.

Deductor Warehouse – многомерное хранилище  данных, аккумулирующее всю необходимую для анализа предметной области информацию.

Deductor Studio – программа, реализующая функции импорта, обработки, визуализации и экспорта данных. В Deductor Studio включен полный набор механизмов, позволяющий получить информацию из произвольного источника данных, провести весь цикл обработки, используя Мастера обработки (очистку, трансформацию данных, построение моделей), отобразить полученные результаты наиболее удобным образом (OLAP, диаграммы, деревья…) и экспортировать результаты на сторону. Это полно стью соответствует концепции извлечения знаний из баз данных.

Deductor Viewer – рабочее место конечного пользователя. Позволяет отделить процесс построения моделей от использования уже готовых моделей. Все сложные операции по подготовке моделей выполняются аналитиками-экспертами при помощи Deductor Studio, а Deductor Viewer обеспечивает пользователям простой способ работы с готовыми результатами.

Реализованные в Deductor обработчики покрывают основную потребность в анализе данных и создании законченных аналитических решений на базе Data Mining.

Кроме описанных трех статистических пакетов, для сравнения рассмотрим пакет MS Excel.

MS Excel – это электронная таблица с достаточно мощными математическими возможностями, где некоторые статистические функции являются просто дополнительными встроенными формулами. Безусловно, MS Excel хорошо подходит для накопления данных, промежуточного преобразования, предварительных статистических прикидок, для построения некоторых видов диаграмм. Однако в MS Excel невозможно построить качественные научные графики, а окончательный статистический анализ необходимо делать в программах, которые специально созданы для этих целей. Существует макрос-дополнение XLSTAT-Pro для MS Excel который, включает в себя более 50 статистических функций, включая анализ выживаемости, которых в основных случаях достаточно для обычного применения.

Анализ возможностей различных  пакетов (табл. 1) позволил сформулировать их преимущества и недостатки и дать рекомендации по их применению:

  1. Хотя пакет MS Excel не является статистическим пакетом, но он входит в MS Office, включает много статистических функций и дает возможность подключить встроенный пакет Анализа данных /9-10/. Поэтому следует рассмотреть его возможности для статистического анализа. Для небольших предприятий, когда не требуется проводить кластеризации данных, а лишь необходимо установить некоторые зависимости, дать статистическое описание исследуемым переменным, данный пакет будет экономически выгодным.
  2. Пакет STATISTICA является мощным средством статистического анализа, нашедший применение во многих сферах деятельности. Он включает большое количество методов, реализуемых в отдельных модулях, которые могут запускаться автономно. Но для реализации каждого метода не хватает методики их выполнения и толкований полученных результатов. Этот недостаток может затруднить внедрение пакета.
  3. Пакет ППП SPSS включает широкий спектр команд и процедур, связанных с описательными методами статистики: описание распределения, анализ связи количественных и качественных переменных, наряду с параметрическими методами сравнения средних, большой набор непараметрических тестов. Такая обработка актуальна в ходе социологических исследованиях. Имеется возможность работать с данными, подготовленными в MS Excel.
  4. Пакет Deductor имеет единое хранилище данных (а не отдельные файлы, как ППП STATISTICA), разработанные сценарии, включающие загрузку данных из хранилища или внешнего источника, восстановление пропущенных значений, установления незначимых факторов, построение моделей. В пакете при открытии файла с данными он проверяется на пропущенные данные, идет их восстановление, поэтому результаты дальнейшей обработки могут немного отличаться от других пакетов.

 

Таблица 1. Сопоставление возможностей статистических пакетов

Функции и методы

Пакеты прикладных программ

MS Excel

STATISTICA

SPSS

Deductor

Описательные методы статистического  анализа:

  1. вычисления математических ожиданий, дисперсий изучаемых величин и др.
  2. проверка гипотез о равенстве математических ожиданий

 

 

 

  1. построение гистограмм

 

 

 

 

Построение модели временного ряда и прогнозирование с учетом сезонных колебаний и периодических трендов

 

Построение многомерной линейной регрессионной модели

 

 

 

Построение нелинейной регрессионной  модели

 

 

 

 

 

 

 

Корреляционный анализ

 

 

 

 

 

 

 

Одномерный и двухмерный дисперсионный  анализ

 

 

Кластерный анализ

 

 

 

Факторный анализ

 

 

Дискриминантный анализ

 

 

 

 

Многомерное шкалирование

 

 

Возможности графического отображения результатов

 

 

 

 

Возможности импорта данных

 

 

 

Возможности экспорта данных

 

 

 

 

Возможности интеллектуализации данных

 

Очистка и трансформация данных

 

 

встроенные функции Excel

 

 

 

функции пакета Анализа данных

 

 

 

 

 

функции пакета Анализа данный

 

 

 

требуется самостоятельно создавать  шаблон на листе Excel

 

 

 

встроенная функция ЛИНЕЙН и функция пакета Анализ данных РЕГРЕССИЯ

 

встроенные функции позволяют  построить полиноминальную и  экспоненциальную модели

 

встроенные функции Excel КОРРЕЛ, КОВАР, функции пакета Анализа данных

 

 

 

функции пакета Анализ данных

 

 

 

 

-

 

 

-

 

 

 

-

 

 

 

-

 

 

 

встроенные функции Мастер диаграмм

 

 

 

 

из других приложений MS Office

 

 

таблицы и диаграммы в другие приложения MS Office

 

-

 

 

 

-

 

 

модуль Описательной статистики

 

 

 

модуль Описательной статистики

 

 

 

 

 

модуль Описательной статистики

 

 

 

модуль Временные ряды и прогнозирование с поквартальной и месячной десонализацией

 

модуль Множественная регрессия

 

 

 

модель Множественная регрессия дает большой выбор нелинейных моделей

 

 

 

 

модули Описательной статистики, Непараметрический анализ

 

 

 

 

модуль Дисперсионный анализ

 

 

 

модуль Кластерный анализ

 

 

модуль Факторный анализ

 

модуль Дискриминантный функциональный анализ

 

модуль Многомерное шкалирование

 

 

графики типа 2М, 3М, пиктограммы

 

 

 

 

 

из других приложений MS Office, в том числе из MS Excel

 

таблицы и диаграммы в другие приложения MS Office

 

 

 

дополнительный модуль Нейронные сети

 

модуль Временные ряды и прогрозирование

 

 

 

команда Descriptives

 

 

 

 

широкий спектр команд One sample T-test, Independent sample T-test и др. непараметрические методы

 

команды FREQUENCIES STATISTICS, HISTOGRAM

 

 

 

 – 

 

 

 

 

линейная регрессия в процедуре REGRESSION

 

 

 

логистическая регрессия в процедуре REGRESSION

 

 

 

 

 

 

процедуры связи количественных переменных CORRELATIONS и неколичественных переменных CROSSTABS

 

процедура ANOVA

 

 

 

 

процедуры CLUSTER, QUICK CLUSTER или команда k-means.

 

процедура FACTOR

 

 

 

-

 

 

 

процедура Multidimentional scaling

 

графики, денрограммы в процедуре PLOT DEND-ROGRAM

 

 

 

 

 

 

 

из других приложений MS Office, в том числе из MS Excel

 

 

таблицы и диаграммы в другие приложения MS Office

 

 

 

-

 

 

 

-

 

 

 

при выполнении функции Линейная регрессия

 

 

 

 

 – 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

функция Линейная регрессия

 

 

 

 

-

 

 

 

 

 

 

 

 

функция Корреляционный анализ

 

 

 

 

 

-

 

 

 

 

фунции Дерево решений и Карта Кохонена

 

функция Факторный анализ

 

 

-

 

 

 

-

 

 

 

диаграммы, гистограммы, OLAP – многомерное представление данных в виде кросс-таблиц и кросс-диаграмм

 

из других приложений MS Office программой Deductor Studio

 

 

таблицы и диаграммы в другие приложения MS Office программой Deductor Studio

 

 

методы Мастера обработки: Нейросеть

 

широкий спектр, в том числе: сглаживание (скользящее окно), очистка от шумов (фильтрация), группировка

Информация о работе Программные средства, автоматизирующие статистическую обработку данных