Автор работы: Пользователь скрыл имя, 26 Июня 2012 в 19:56, реферат
Случайной называют величину, принимающую в результате эксперимента одно только значение из некоторой их совокупности и неизвестное заранее, какое именно.
Случайная величина, к примеру, представляет собой обоснованную модель описания геологических данных, учитывающую влияние различных факторов на физическое поле.
I. Теоретические основы закона о нормальном распределении случайной величины……..3
1. Случайная величина и её основные характеристики……………………………………………...3
1.1. Определения.………………………………………………………………………………………3
1.2. Гистограмма. Полигон частот. Непрерывное распределение………………………………….5
1.3. Свойства основных характеристик случайной величины……………………………………...6
1.4. Свойства показателей вариации………………………………………………………………….7
2. Функции распределения случайной величины. Свойства………………………………………...8
2.1. Функция распределения…………………………………………………………………………..8
2.2. Свойства функции распределения……………………………………………………………...10
2.3. Свойства функции плотности распределения………………………………………………….10
3. Нормальное распределение………………………………………………………………………..13
3.1. Определение нормального распределения……………………………………………………..13
3.2. Свойства нормального распределения…………………………………………………………17
3.3. Сравнение экспериментального распределения с нормальным законом…………………….19
4. Моделирование нормальной случайной величины………………………………………………22
4.1. Центральная предельная теорема……………………………………………………………….22
4.2. Преобразования Бокса-Мюллера……………………………………………………………….23
5. Проверка статистических гипотез…………………………………………………………………25
5.1. Этапы проверки статистических гипотез………………………………………………………28
5.2. Виды критической области……………………………………………………………………...29
5.3. Критерий хи-квадрат Пирсона…………………………………………………………………..29
5.4. Критерий Колмагорова…………………………………………………………………………..30
5.5. Критерий Вилкоксона……………………………………………………………………………31
5.6. Критерий Стьюдента…………………………………………………………………………….32
II. Краткий обзор теории по петрофизики………………………………………………………...34
1. Определение петрофизики…………………………………………………………………………34
2. Проницаемость……………………………………………………………………………………...36
2.1. Определение. Уравнение Дарси………………………………………………………………...36
2.2. Определение проницаемости в лабораторных условиях……………………………………...39
III. Сопоставление экспериментальных данных с нормальным законом распределения…..42
Например, рассмотрим случай, когда некоторая несмещенная оценка параметра q вычислена по выборке объема n, и эта оценка имеет плотность распределения f(q), рис. 5.1.
Рис. 5.1. Области и отклонения гипотезы
Предположим, что истинное значение оцениваемого параметра равно Т. Если рассматривать гипотезу Н0 о равенстве q =Т, то насколько велико должно быть различие между q и Т, чтобы эту гипотезу отвергнуть. Ответить на данный вопрос можно в статистическом смысле, рассматривая вероятность достижения некоторой заданной разности между q и Т на основе выборочного распределения параметра q.
Целесообразно полагать одинаковыми значения вероятности выхода параметра q за нижний и верхний пределы интервала. Такое допущение во многих случаях позволяет минимизировать доверительный интервал, т.е. повысить мощность критерия проверки. Суммарная вероятность того, что параметр q выйдет за пределы интервала с границами q 1–a/2 и q a /2, составляет величину a . Эту величину следует выбрать настолько малой, чтобы выход за пределы интервала был маловероятен.
Если оценка параметра попала в заданный интервал, то в таком случае нет оснований подвергать сомнению проверяемую гипотезу, следовательно, гипотезу равенства q =Т можно принять. Но если после получения выборки окажется, что оценка выходит за установленные пределы, то в этом случае есть серьезные основания отвергнуть гипотезу Н0. Отсюда следует, что вероятность допустить ошибку первого рода равна a (равна уровню значимости критерия).
Если предположить, например, что истинное значение параметра в действительности равно Т+d, то согласно гипотезе Н0 о равенстве q =Т – вероятность того, что оценка параметра q попадет в область принятия гипотезы, составит b , рис. 5.2.
При заданном объеме выборки вероятность совершения ошибки первого рода можно уменьшить, снижая уровень значимости a. Однако при этом увеличивается вероятность ошибки второго рода b (снижается мощность критерия). Аналогичные рассуждения можно провести для случая, когда истинное значение параметра равно Т – d.
Единственный способ уменьшить обе вероятности состоит в увеличении объема выборки (плотность распределения оценки параметра при этом становится более "узкой"). При выборе критической области руководствуются правилом Неймана – Пирсона: следует так выбирать критическую область, чтобы вероятность a была мала, если гипотеза верна, и велика в противном случае. Однако выбор конкретного значения a относительно произволен. Употребительные значения лежат в пределах от 0,001 до 0,2. В целях упрощения ручных расчетов составлены таблицы интервалов с границами q 1–a /2 и q a /2 для типовых значений a и различных способов построения критерия.
При выборе уровня значимости необходимо учитывать мощность критерия при альтернативной гипотезе. Иногда большая мощность критерия оказывается существеннее малого уровня значимости, и его значение выбирают относительно большим, например 0,2. Такой выбор оправдан, если последствия ошибок второго рода более существенны, чем ошибок первого рода. Например, если отвергнуто правильное решение "продолжить работу пользователей с текущими паролями", то ошибка первого рода приведет к некоторой задержке в нормальном функционировании системы, связанной со сменой паролей. Если же принято решения не менять пароли, несмотря на опасность несанкционированного доступа посторонних лиц к информации, то эта ошибка повлечет более серьезные последствия.
В зависимости от сущности проверяемой гипотезы и используемых мер расхождения оценки характеристики от ее теоретического значения применяют различные критерии. К числу наиболее часто применяемых критериев для проверки гипотез о законах распределения относят критерии хи-квадрат Пирсона, Колмогорова, Мизеса, Вилкоксона, о значениях параметров – критерии Фишера, Стьюдента.
5.1. Этапы проверки статистических гипотез
1. Формулировка основной гипотезы Н0 и конкурирующей гипотезы Н1. Гипотезы должны быть чётко формализованы в математических терминах.
2. Задание уровня значимости α, на котором в дальнейшем и будет сделан вывод о справедливости гипотезы. Он равен вероятности допустить ошибку первого рода.
3. Расчёт статистики критерия такой, что:
её величина зависит от исходной выборки ;
по её значению можно делать выводы об истинности гипотезы Н0;
сама статистика должна подчиняться какому-то известному закону распределения, так как сама является случайной в силу случайности .
5.2. Виды критической области
Выделяют три вида критических областей:
Двусторонняя критическая область определяется двумя интервалами , где находят из условий
Левосторонняя критическая область определяется интервалом , где находят из условия .
Правосторонняя критическая область определяется интервалом , где находят из условия .
5.3. Критерий хи-квадрат Пирсона
Критерий Пирсона - наиболее часто употребляемый критерий для проверки гипотезы о законе распределения. Во многих практических задачах точный закон распределения неизвестен, то есть является гипотезой, которая требует статистической проверки.
Обозначим через X исследуемую случайную величину. Пусть требуется проверить гипотезу Н0 о том, что эта случайная величина подчиняется закону распределения . Для проверки гипотезы произведём выборку, состоящую из n независимых наблюдений над случайной величиной X. По выборке можно построить эмпирическое распределение исследуемой случайной величины. Сравнение эмпирического распределения и теоретического (или, точнее было бы сказать, гипотетического — то есть соответствующего гипотезе Н0) распределения производится с помощью специального правила — критерия согласия. Одним из таких критериев и является критерий Пирсона.
Для проверки критерия вводится статистика:
где — предполагаемая вероятность попадения в i-й интервал, — соответствующее эмпирическое значение, — число элементов выборки из i-го интервала, N — полный объём выборки. Также используется расчет критерия по частоте, тогда:
где — частота попадания значений в интервал. Эта величина, в свою очередь, является случайной (в силу случайности X) и должна подчиняться распределению .
Правило критерия
Если полученная статистика превосходит квантиль закона распределения заданного уровня значимости с или с степенями свободы, где — число наблюдений или число интервалов (для случая интервального вариационного ряда), а — число оцениваемых параметров закона распределения, то гипотеза Н0 отвергается. В противном случае гипотеза принимается на заданном уровне значимости .
5.4. Критерий Колмагорова
Критерий согласия Колмогорова или Критерий согласия Колмогорова-Смирнова — статистический критерий, использующийся для определения того, подчиняются ли два эмпирических распределения одному закону, либо того, подчиняется ли полученное распределение предполагаемой модели. Носит имена математиков Андрея Николаевича Колмогорова и Николая Васильевича Смирнова.
Критерий Колмогорова-Смирнова о проверке гипотезы об однородности двух эмпирических законов распределения является одним из основных и наиболее широко используемых непараметрических критериев, так как достаточно чувствителен к различиям в исследуемых выборках.
Эмпирическая функция распределения (ЭФР) случайной величины , построенная по выборке , имеет вид:
где указывает, попало ли наблюдение в область :
Статистика критерия для эмпирической функции распределения определяется следующим образом:
где — точная верхняя грань множества , - предполагаемая модель.
Обозначим нулевую гипотезу , как гипотезу о том, что выборка подчиняется распределению . Тогда по теореме Колмогорова для введённой статистики справедливо:
Учтём, что критерий имеет правостороннюю критическую область.
Правило критерия
Если статистика превышает процентную точку распределения Колмогорова заданного уровня значимости , то нулевая гипотеза Н0 (о соответствии закону ) отвергается. Иначе гипотеза принимается на уровне .
5.5. Критерий Вилкоксона
Непараметрический статистический тест (критерий), используемый для проверки различий между двумя выборками парных измерений. Впервые предложен Фрэнком Уилкоксоном.
Критерий предназначен для сопоставления показателей, измеренных в двух разных условиях на одной и той же выборке испытуемых. Он позволяет установить не только направленность изменений, но и их выраженность, то есть, способен определить, является ли сдвиг показателей в одном направлении более интенсивным, чем в другом.
Критерий применим в тех случаях, когда признаки измерены, по крайней мере, в порядковой шкале. Целесообразно применять данный критерий, когда величина самих сдвигов варьирует в некотором диапазоне (10-15% от их величины). Это объясняется тем, что разброс значений сдвигов должен быть таким, чтобы появлялась возможность их ранжирования. В случае если сдвиги незначительно отличаются между собой, и принимают какие-то конечные значения, например. +1, -1 и 0, формальных препятствий к применению критерия нет, но, ввиду большого числа одинаковых рангов, ранжирование утрачивает смысл, и те же результаты проще было бы получить с помощью критерия знаков.
Суть метода состоит в том, что мы сопоставляем абсолютные величины выраженности сдвигов в том или ином направлении. Для этого сначала все абсолютные величины сдвигов ранжируются, а потом суммируются ранги. Если сдвиги в ту или иную сторону происходят случайно, то и суммы их рангов окажутся примерно равны. Если же интенсивность сдвигов в одну сторону больше, то сумма рангов абсолютных значений сдвигов в противоположную сторону будет значительно ниже, чем это могло бы быть при случайных изменениях.
Ограничения критерия
Объем выборки — от 5 до 50 элементов.
Нулевые сдвиги исключаются из рассмотрения. (Это требование можно обойти, переформулировав вид гипотезы. Например: сдвиг в сторону увеличения значений превышает сдвиг в сторону их уменьшения и тенденцию к сохранению на прежнем уровне.)
Сдвиг в более часто встречающемся направлении принято считать «типичным», и наоборот.
Есть также урезанный вариант для сравнения одной выборки с известным значением медианы.
Алгоритм
1. Составить список испытуемых в любом порядке, например, алфавитном.
2. Вычислить разность между индивидуальными значениями во втором и первом замерах. Определить, что будет считаться типичным сдвигом.
3. Согласно алгоритму ранжирования, проранжировать абсолютные величины разностей, начисляя меньшему значению меньший ранг, и проверить совпадение полученной суммы рангов с расчетной.
4. Отметить каким-либо способом ранги, соответствующие сдвигам в нетипичном направлении. Подсчитать их сумму Т.
5. Определить критические значения Т для данного объема выборки. Если Т-эмп. меньше или равен Т-кр. – сдвиг в «типичную» сторону достоверно преобладает.
Фактически оцениваются знаки значений, полученных вычитанием ряда значений одного измерения из другого. Если в результате количество снизившихся значений примерно равно количеству увеличившихся, то гипотеза о нулевой медиане подтверждается.
5.6. Критерий Стьюдента
t-критерий Стьюдента — общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках.
t-статистика строится обычно по следующему общему принципу: в числителе случайная величина с нулевым математическим ожиданием (при выполнении нулевой гипотезы), а в знаменателе — выборочное стандартное отклонение этой случайной величины, получаемое как квадратный корень из несмещенной оценки дисперсии.
Требования к данным
Для применения данного критерия необходимо, чтобы исходные данные имели нормальное распределение. В случае применения двухвыборочного критерия для независимых выборок также необходимо соблюдение условия равенства дисперсий. Существуют, однако, альтернативы критерию Стьюдента для ситуации с неравными дисперсиями.
Требование нормальности распределения данных является необходимым для точного -теста. Однако, даже при других распределениях данных возможно использование -статистики. Во многих случаях эта статистика асимптотически имеет стандартное нормальное распределение — , поэтому можно использовать квантили этого распределения. Однако, часто даже в этом случае используют квантили не стандартного нормального распределения, а соответствующего распределения Стьюдента, как в точном -тесте. Асимптотически они эквивалентны, однако на малых выборках доверительные интервалы распределения Стьюдента шире и надежнее.