Автор работы: Пользователь скрыл имя, 23 Февраля 2015 в 18:59, курсовая работа
В данной курсовой работе рассказано о наиболее распространенных критериях согласия – омега-квадрат, хи-квадрат, Колмогорова и Колмогорова-Смирнова. Особенное внимание уделено случаю, когда необходимо проверить принадлежность распределения данных некоторому параметрическому семейству, например, нормальному. Эта весьма распространенная на практике ситуация из-за своей сложности исследована не до конца и не полностью отражена в учебной и справочной литературе.
ВВЕДЕНИЕ
РАЗДЕЛ I. ТЕОРЕТИЧЕСКОЕ ОБОСНОВАНИЕ КРИТЕРИЯ СОГЛАСИЯ
1.1 Критерии согласия Колмогорова и омега-квадрат в случае простой гипотезы
1.2 Критерии согласия χ2 Пирсона для простой гипотезы
1.3 Критерии согласия для сложной гипотезы
1.4 Критерии согласия χ2 Фишера для сложной гипотезы
1.5 Другие критерии согласия. Критерии согласия для распределения Пуассона
РАЗДЕЛ II. ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ КРИТЕРИЯ СОГЛАСИЯ
ВЫВОД
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
Асимптотический характер теоремы К. Пирсона, лежащий в основе этого правила, требует осторожности при его практическом использовании. На него можно полагаться только при больших n. Судить же о том, достаточно ли n велико, надо с учетом вероятностей pi, …, pr. Поэтому нельзя сказать, к примеру, что ста наблюдений будет достаточно, поскольку не только n должно быть велико, но и произведения npi, …, npr (ожидаемые частоты) тоже не должны быть малы. Поэтому проблема аппроксимации χ2 (непрерывное распределение) к статистике χ2, распределение которой дискретно, оказалась сложной. Совокупность теоретических и экспериментальных доводов привела к убеждению, что эта аппроксимация применима, если все ожидаемые частоты npi>10. если число r (число различных исходов) возрастает, граница для npi может быть снижена (до 5 или даже до 3, если r порядка нескольких десятков). Чтобы соблюсти эти требования, на практике порой приходится объединять несколько исходов, т.е. переходить к схеме Бернулли с меньшим r.
Описанный способ для проверки согласия можно прилагать не только к испытаниям Бернулли, но и к произвольным выборкам. Предварительно их наблюдения надо превратить в испытания Бернулли путем группировки. Делают это так: пространство наблюдений разбивают на конечное число непересекающихся областей, а затем для каждой области подсчитывают наблюденную частоту и гипотетическую вероятность.
В данном случае к перечисленным ранее трудностям аппроксимации прибавляется еще одна – выбор разумного разбиения исходного пространства. При этом надо заботится о том, чтобы в целом правило проверки гипотезы об исходном распределении выборки было достаточно чувствительным к возможным альтернативам. Наконец, отмечу, что статистические критерии, основные на редукции к схеме Бернулли, как правило, не являются состоятельными против всех альтернатив. Так что такой метод проверки согласия имеет ограниченную ценность.
1.3 Критерии согласия для сложной гипотезы
На практике задача о согласии данных наблюдений с некоторым совершенно конкретным распределением, встречается реже, чем задача проверки сложной гипотезы, которую мы рассматриваем ниже.
Более трудной, но более важной для приложений задачей является проверка гипотезы о том, что данная выборка подчиняется определенному параметрическому закону распределения, например нормальному закону. Параметры этого закона остаются неопределенными, так что эта гипотеза сложная.
Пусть x1, …, xn – выборка из распределения с функцией распределения
F(x, ). Здесь - неизвестный параметр, не обязательно скалярный.[11] Обозначим его истинное значение через º. Сейчас мы не можем сравнить выборочную функцию распределения Fn(x) и теоретическую, поскольку эта последняя нам не вполне известна: в ее выражение F(x, º) входит неопределенный параметр º. Мы, однако, можем найти для º приближенное значение, основываясь на выборке x1, …, xn. Для этого можно использовать разные методы оценивания, но наиболее ясные и в определенном смысле наилучшие результаты получаются, если использовать метод наибольшего правдоподобия.
Итак, пусть n – оценка наибольшего правдоподобия по выборке x1, …, xn для неизвестного параметра распределения F(x, ). Теперь для вычисления статистики Колмогорова вместо F(x, º) мы можем использовать F(x, n) и ввести модифицированную статистику Колмогорова:
Аналогично, модифицированная статистика омега-квадрат есть:
Свойства статистик Dn и во многом повторяют отмеченные ранее свойства статистик Dn и . В частности, и n неограниченно возрастают, если проверяемая гипотеза неверна. Поэтому эту гипотезу следует отвергнуть, если наблюденное значение (или n, если применяется модифицированный критерий омега-квадрат) неправдоподобно велико, например, превосходит критическое значение, о котором будет сказано ниже.
Важно отметить, что статистика Dn распределена иначе, чем Dn (1.1), а статистика – иначе, чем (1.5). Причина в том, что из-за подбора n по выборке функций F(x) и F(x, n) (в случае, если гипотеза о типе распределения верна) оказываются ближе к друг другу, чем F(x) и F(x, º). Поэтому при справедливости гипотезы статистика Dn, как правило, будет принимать существенно меньше значения, чем Dn. Аналогично соотносятся и .
Поскольку статистики (3.1), (3.2) при справедливости гипотезы имеют иные распределения, чем статистики Dn и , для их применения необходимы таблицы распределений или хотя бы таблицы критических значений. К сожалению, модифицированные статистики (3.1), (3.2) не обладают столь привлекательным свойством «свободы от распределения выборки», как их прототипы, поэтому для каждого параметрического семейства распределений нужны свои таблицы. Более того, распределения (3.1), (3.2) могут зависеть и от истинного значения неизвестного параметра (параметров).[4] К счастью, для так называемых «масштабно-сдвиговых» семейств, к которым относятся нормальные, показательное и многие другие практически важные распределения, этого последнего осложнения не возникает.
Таблицы распределений статистик (3.1), (3.2) к настоящему моменту составлены для многих семейств. Большинство из них рассчитаны методом случайных испытаний (методом Монте-Карло). Автор большинства этих расчетов М. Стефенс заметил, что зависимость результатов от объема выборки резко уменьшается, если вместо Dn , использовать их несколько преобразованные варианты. Стефенс утверждает, что для этих форм зависимость от n практически перестает сказываться, начиная с n = 5. ниже приводятся некоторые таблицы Стефенса.
Табл. 3.1 Модифицированные критерии для проверки нормальности, оба параметра неизвестны
Статистика
Модифицированная форма
Верхние процентные точки
0.15 0.10 0.05 0.025 0.01
Dn
0.775 0.819 0.895 0.955 1.035
0.091 0.104 0.126 0.148 0.178
Табл. 3.2 Модифицированные критерии для проверки экспоненциальности, параметр неизвестен
Статистика
Модифицированная форма
Верхние процентные точки
0.15 0.10 0.05 0.025 0.01
Dn
0.926 0.990 1.094 1.190 1.308
0.149 0.177 0.224 0.273 0.337
Предельное (при n → ∞) распределение n известно, но вычисляется довольно сложно. Предельное распределение для найти не удалось, есть лишь приближенные формулы для критических значений, основанные на асимптотических разложениях. Сравнение расчетов по этим формулам с упомянутыми ранее таблицами показало их хорошее согласие. Как уже говорилось, для каждого параметрического семейства критические значения надо рассчитывать особо. Например, для нормального закона, оба параметра которого оцениваются по выборке, для больших z > 0 (т.е. для z → ∞).
(3.3)
Если же математическое ожидание известно и равно, скажем, а, то по выборке приходится оценивать только дисперсию. В этом случае для больших z > 0
Эти приближенные формулы дают хорошие результаты для малых вероятностей и больших объемов выборок, то есть для вероятностей, начиная примерно с 0.20 (и меньше) и для объемов n, начиная примерно с 100 (и больше).
1.4 Критерии согласия χ2 Фишера для сложной гипотезы
Для проверки сложных гипотез может быть использована и соответствующая модификация критерия хи-квадрат Пирсона. Главные заслуги здесь принадлежат Р. Фишеру. Приведу одну из его теорем (сохраняя обозначения из теоремы К. Пирсона).
Теорема Фишера. Пусть n – число независимых повторений опыта, который может заканчиваться одним из r (r – произвольное натуральное число) элементарных исходов, скажем, А1, …, Аr. Пусть вероятности этих элементарных исходов известны с точностью до некоторого неопределенного, скажем, k-мерного параметра = (1, …, k). Тогда эти вероятности являются функциями от : Р(Аі) = рі(). Будем предполагать, что функции р1(), …, рr() заданы, дифференцируемы, для всякого , а параметр изменяется в ограниченной области пространства. Тогда при n → ∞ статистика:
асимптотически распределена по закону χ2 с r – k – l степенями свободы.
Существует много вариантов этой теоремы. Например, такое же, как выше, предельное распределение имеет статистика
где n – оценка наибольшего правдоподобия для параметра , найденная по частотам т1, …, тr. Поэтому значение (4.2) в дальнейшем можно использовать вместо (4.1). Далее, знаменатели прі в (4.1) и (4.2) можно заменить на ті, і = 1, …, r , и это не отразится на асимптотическом распределении χ2. Есть и другие возможности.
Статистика χ2 из (4.1) (и ее варианты) называется статистикой хи-квадрат Фишера для сложной гипотезы.
Статистику (4.1) (и ее варианты) можно использовать для проверки описанной выше сложной гипотезы о параметрическом виде вероятностей в схеме Бернулли
где р1(·), …, рr(·) – заданы, а параметр изменяется в заданной ограниченной области. Это можно делать так же, как мы делали с помощью статистики χ2 в случае простой гипотезы.
А именно, по наблюденным частотам т1, …, тr надо вычислить значение χ2 (4.1) либо (4.2) и затем сравнить его с критическими значениями распределения χ2 с числом степеней свободы (r – k – l), либо вычислить Р(χ2> χ2). Однако для использования аппроксимации хи-квадрат для распределения χ2 необходимо, чтобы число наблюдений было достаточно велико, и тем самым ожидаемые частоты прі() не были малыми.
Как следует из формулировки теоремы, объект ее применения – испытания с конечным числом исходов. Чтобы использовать ее в условиях другого эксперимента – например, для проверки гипотезы о типе непрерывного или дискретного распределения с бесконечным (или конечным, но большим) числом исходов – этот эксперимент надо предварительно превратить в схему Бернулли. Раньше уже говорилось, как это делается обычно – путем разбиения выборочного пространства на непересекающиеся области. Параметрический (зависящий от параметра ) закон распределения вероятностей во всем пространстве, соответствие которого нашей выборке мы хотим проверить, превращается при этом в параметрическое распределение вероятностей между выбранными r областями.
Понятно, что результат последующего применения критерия хи-квадрат (принять гипотезу, отвергнуть гипотезу) сильно зависит от описанного перехода. К этому следует добавить условие применимости распределения χ2, которое требует, чтобы ожидаемые частоты были достаточно большими. (условие на ожидаемые частоты часто приходиться заменять требованием, чтобы не были малы наблюдаемые частоты т1, …, тr.) становится ясно, что подготовка к применению критерия хи-квадрат в несвойственных ему составляет деликатную и не всегда простую проблему. Возникает даже опасность невольной подгонки выбираемого разбиения к желательному результату. Поэтому, строго говоря, разбиение пространства на области должно идти вне зависимости от результатов случайного эксперимента, т.е. вне влияния подлежащей обработке выборки.
Как же после всех этих предостережений можно применить теорему Фишера к проверке гипотезы о типе выборки? Обсудим это на примере нормального распределения, параметры которого (а, σ2) неизвестны.
Итак, есть выборка х1, …, хп большого объема, проверить нормальность которой мы хотим с помощью (4.1) или (4.2) или их модификаций. Прежде всего мы должны разбить числовую прямую на r непересекающихся областей, а еще прежде – выбрать само число r. Сейчас существует убеждение (подкрепленное асимптотическими исследованиями), что против гладкой альтернативы лучше брать r небольшим – несколько единиц. Если же конкурируют с нормальным распределением все другие возможности, число r стоит взять таким большим, какое позволяет последующее использование аппроксимации хи-квадрат.
Допустим, что r уже выбрано, и можно переходить к разбиению пространства на области. При этом надо позаботится о том, чтобы ожидаемые частоты этих областей были достаточно велики для того, чтобы для χ2 действовала аппроксимация χ2. поскольку истинное распределение вероятностей неизвестно, приходится опираться на какую-либо его оценку. В данном примере – на оценку
истинной функции распределения
Чтобы не ломать бесплодно голову над вопросом, какими должны быть вероятности этих областей, а точнее в данном случае – их приближенные значения, возьмем их одинаковыми. Иными словами, в качестве границ интервалов используем решения уравнений
,
Замечу, что в качестве оценки функций распределения можно использовать и выборочную функцию распределения Fn(х), и другие возможности. В этом случае границами интервалов разбиения будут служить выборочные квантили (порядковые статистики).
После того, как мы определили интервалы разбиения числовой прямой, подсчитываем частоты т1, …, тr, по которым будем вычислять потом статистику χ2 (4.1) или (4.2) или какую- либо эквивалентную.
Следует подчеркнуть, что согласно теореме Фишера, для вычисления участвующих в этих формулах вероятностей рі() следует использовать частоты т1, …, тr, и только их. Никакой другой информацией пользоваться нельзя! Нельзя, например, использовать составлены по всей выборке ,а должны быть – по частотам ті.
Можно даже сказать, какие последствия повлечет за собой нарушение этого запрета. Статистика χ2 не будет (асимптотически) следовать распределению χ2 с r – l степенями свободы (как было бы при точно известных параметрах). Ее функция распределения пройдет несколько выше. В качестве иллюстрации на рис. 4.1 приведе6м графики функций распределения хи-квадрат с 8, 10, 18 и 20 степенями свободы. Графики, соответствующие первым двум распределениям, выделяют область в которой будет проходить график функции распределения χ2 при r = 11, если для вычисления рі() использовались оценки . Последние два графика задают область нахождения функции распределения χ2 при r = 21.