Лекция по статистике

Автор работы: Пользователь скрыл имя, 14 Апреля 2014 в 12:18, реферат

Краткое описание

Слово «статистика» настолько широко используется в современном мире, что порой не ясно, о чем же собственно идет речь. Казалось бы, словосочетания «статистика футбольного матча» и «математическая статистика» должны иметь что-то общее, ведь и там и там речь идет о некоей статистике. Увы, это далеко не так: в первом случае речь идет о неких суммарных данных (столько-то голов забито, столько-то получено желтых и красных карточек игроками, столько-то минут добавлено арбитром в первом и во втором тайме и так далее). Во втором – о методах и приемах анализа данных применительно к данным самой разной природы.

Вложенные файлы: 1 файл

Лекция. Статистика. Л.В.Недорезов.doc

— 255.50 Кб (Скачать файл)

(очевидно, величина , вычисляемая по этой формуле, не является целочисленной, поэтому округляем до целого значения). Это позволяет нам найти длину интервала, поделив размах выборки (3) на количество интервалов :

.

Осталось решить последний вопрос – как выбрать левую границу самого первого интервала? Если мы решим этот вопрос, то сможем вычислить сразу же и правую границу первого интервала, прибавив к найденному значению (левой границы первого интервала) величину . А поскольку правая граница первого интервала является в то же время и левой границей второго интервала, то мы получаем возможность рекуррентно (последовательно) вычислить границы всех требуемых интервалов. Сразу же заметим, что правая граница последнего интервала должна быть больше величины - в этом случае мы имеем гарантию того, что все точки выборки лежат в каком-либо из построенных нами интервалов.

Теперь, возвращаясь к вопросу о нахождении левой границы самого первого интервала, замечаем, что у нас есть только два ограничения: левая граница должна быть меньше величины , и, кроме этого, в первом интервале должно находиться не менее одной точки выборки. Понятно, что первый интервал, не содержащий ни одной точки выборки, не представляет для нас никакого интереса. Итак, один из вариантов выбора левой границы заключается в следующем: эта граница выбирается так, чтобы самая левая точка выборки оказалась в центре первого интервала. Таким образом, получаем следующую формулу для нахождения левой границы :

.

Правая граница первого интервала, очевидно, определяется по формуле:

,

и при этом левая граница второго интервала равна правой границе первого интервала: .

Следующий шаг нахождения моды для выборки, состоящей из значений непрерывной случайной величины, состоит в следующем: мы находим число точек выборки, которые попали в разные интервалы. Если в какой-то из интервалов попало наибольшее число точек выборки, то тогда середина этого интервала объявляется модой распределения. Если же имеется несколько интервалов с одинаковым числом точек, то тогда соответствующие середины интервалов объявляются модами.

Итак, повторим еще раз. Выше дано описание четырех различных оценок для числовой выборки. Среднее арифметическое (1) существует всегда. Среднее геометрическое (2) может не существовать. Медиана и мода также могут не существовать для конкретной выборки. Заметим, эти оценки иногда называют средними характеристиками выборки. Заметим также, что одними средними характеристиками охарактеризовать выборку нельзя. Вернемся к простому примеру со школьными отметками: понятно, что два ученика, один из которых всегда учился только на «хорошо» и имел оценку 4 по всем предметам, а другой учился на «три» и «пять», вполне могут иметь один и тот же средний бал. Но знания у них при этом могут быть качественно различными!

 

Следующая группа оценок предназначена для описания разброса выборочных значений около среднего арифметического (или, иными словами, для характеристики расположения значений выборки на числовой оси). Одна из таких оценок представлена выше – это размах выборки (3), определяемый как разность максимального и минимального значений в выборке. Однако эта оценка далеко не в полной мере отражает характер расположения точек выборки на прямой, поскольку из всей выборки она вычисляется только по двум крайним значениям. Гораздо чаще для этих же целей используется выборочная дисперсия, которая определяется следующей формулой:

,                                                            (4)

где - среднее арифметическое, - объем выборки. Заметим, что выборочная дисперсия всегда неотрицательна (поскольку в формуле (4) складываются неотрицательные числа), и равна нулю только в одном единственном случае, когда все выборочные значения равны: . Если же это не выполняется, то выборочная дисперсия строго больше нуля.

Выборочная дисперсия (4) обладает рядом свойств, которые всегда нужно иметь в виду при анализе данных. Во-первых, если метод сбора данных и/или прибор, с помощью которого производятся измерения, имеют регулярную ошибку (то есть вместо величины мы фиксируем величину , где ), то это никак не сказывается на величине дисперсии. Во-вторых, если мы меняем масштаб измерений (например, вместо грамм переходим к килограммам, вместо метров – километры, вместо копеек - рубли и так далее), иными словами, умножаем все элементы исходной выборки на некую постоянную величину , , то дисперсия выборки при этом изменяется в раз. Это последнее свойство представляется не совсем удобным и есть определенное желание, чтобы при линейном изменении элементов выборки величина, характеризующая разброс выборочных значений, также изменялась линейно. Именно поэтому во многих случаях предпочитают использовать другую величину, которая называется стандартным отклонением:

.

Величина стандартного отклонения изменяется линейно при линейном изменении элементов исходной выборки. Наконец, имеется еще одна важная характеристика выборки, которая называется ошибкой среднего и которая также связана с выборочной дисперсией:

.                                                                     (5)

При подготовке отчета или научной статьи, в которых представлен анализ каких-либо данных, в качестве основных показателей, характеризующих исходную выборку, указывают именно среднее арифметическое и ошибку среднего .

Пример 1. Пусть нам дана следующая выборка:

1,1,1,2,3,4,2,2,4,0,

которая описывает сделанные продажи какого-либо вида обуви за 10 дней (таким образом, объем данной выборки ). Вычислим последовательно все характеристики выборки, которые были рассмотрены выше.

Среднее арифметическое: ,

Среднее геометрическое:

Мода: (именно эти числа встречаются в выборке чаще других)

Медиана: не существует. Действительно, в выборке содержится четное число членов, и если бы все элементы выборки были разные, то нам надо было бы найти два «средних» элемента (пятый и шестой в упорядоченной по возрастанию или убыванию выборке) и вычислить для них среднее арифметическое. Однако, в рассматриваемом случае эти два «средних» элемента равны 2. Поэтому и среднее арифметическое для них также равно двум. Но проводя медиану через число 2, мы получаем, что «слева» от этого числа 2 мы имеем 4 точки выборки (0,1,1,1), а «справа» - три точки выборки (3,4,4). Поэтому поделить выборку пополам никак не удается в нашем случае.

Размах:

Выборочная дисперсия:

Стандартное отклонение:

Ошибка среднего:

 

Рассмотрим следующую ситуацию. Для своего магазинчика обуви вы проводите расчет среднего объема продаж в день какого-либо вида обуви. Собрали данные за первый месяц и получили некое число. Потом собрали данные за второй месяц и снова подсчитали средний объем продаж в день – получилось некое новое число, не равное среднему числу продаж за предыдущий месяц. Провели расчеты для данных за третий месяц – и снова некое новое число. Почему же так происходит? Дело в том, что расчет среднего (арифметического) значения производится каждый раз для каких-то случайных чисел. Поэтому и результат расчетов – среднее арифметическое, - тоже случайное число (но только с другим распределением, не совпадающим с распределением элементов выборки). Вот если бы мы могли продавать обувь бесконечное время, а потом полученные данные использовать для определения среднего… Тогда бы мы, конечно, нашли истинное значение среднего объема продаж…

А что это такое – истинное значение среднего объема продаж обуви в день? Для того, чтобы это выяснить, рассмотрим несколько иную ситуацию. Пусть нам дан детский игральный кубик с шестью гранями. При каждом бросании этого кубика в результате мы получаем целое число от 1 до 6. Когда кубик правильный и каждое такое число появляется с вероятностью 1/6, то тогда математическое ожидание (среднее значение) равно 3.5. Однако, если мы будем бросать кубик по 100 раз, а потом подсчитывать среднее арифметическое, то мы будем получать числа близкие к 3.5 (а иногда и весьма далекие от этого значения), но не равные этой величине. Вот если мы будем делать достаточно большое число бросаний кубика, то результат будет все ближе и ближе к данной величине.

Это хорошо для игрального кубика – мы заранее знаем теоретический результат. А в случае с продажами обуви мы, конечно, знаем, что такое истинное значение среднего существует, но каково оно – нам не известно.

Для того, чтобы как-то оценить истинное значение среднего арифметического, используют доверительный интервал.

Определение 6. Доверительным интервалом называется такой конечный или бесконечный отрезок прямой, в котором истинное значение среднего арифметического находится с некоторой заданной вероятностью. Вероятность (стандартные значения для : 0.999, 0.99, 0.95), с которой истинное значение находится в интервале, называется доверительной вероятностью. Величина называется уровнем значимости и, по своей сути, является вероятностью ошибки – с вероятностью истинное значение среднего находится вне доверительного интервала.

К этому определению необходимо сделать некоторые замечания. Во-первых, когда по выборке мы начинаем строить доверительный интервал (вычислять его границы), то всегда должны помнить, что выбор доверительной вероятности – это исключительно прерогатива исследователя. Мы сами должны задать эту вероятность. Во-вторых, если мы захотим построить доверительный интервал для , то мы это и так знаем и выборка нам в этом случае совсем не нужна – такой доверительный интервал совпадает со всей действительной осью. И получаемый при этом результат нам также заранее известен – где-то на действительной оси находится истинное значение среднего. В-третьих, большей доверительной вероятности соответствует и больший доверительный интервал.

На чем основан выбор доверительной вероятности? Вопрос достаточно сложный, каждый исследователь решает его сам, и каких-то общепринятых рецептов для выбора этой вероятности не существует. Существуют общепринятые стандартные значения, указанные выше; выбирая одну из этих вероятностей, мы заранее считаем, что вероятность ошибки (уровень значимости) при нашем выборе крайне мала. Но что именно такое «крайне мала» или «крайне велика» та или иная вероятность? Если охотник стреляет в цель и промахивается с вероятностью 0.05 (соответственно, попадает в цель с вероятностью 0.95), то многие скажут, что это – очень хороший результат и вероятность 0.05 мала. Если же у парашютиста парашют не раскрывается с вероятностью 0.05, то все скажут, что это – огромная вероятность.

Поэтому можно дать лишь один совет. Если по тем или иным причинам выбрана величина доверительной вероятности, то все исследование должно быть проведено с использованием выбранного значения.

Итак, пусть нам дана выборка , ,…, . Для этой выборки вычисляем среднее арифметическое по формуле (1) и ошибку среднего по формуле (5). Теперь у нас есть возможность построить симметричный доверительный интервал, границы которого определяются следующими соотношениями:

левая граница равна ,

правая граница равна .

В этих соотношениях присутствует некое выражение , которое зависит от двух показателей: - числа степеней свободы (в данном случае – объем выборки минус 1), и - уровня значимости. Для величины (распределение Стьюдента) созданы специальные таблицы, которые организованы следующим образом. Сверху над каждой колонкой чисел в таблице указан уровень значимости, а рядом с каждой строкой таблицы – число степеней свободы. Соответственно, для каждого значения и в таблице находим ровно одно число, которое и необходимо использовать для нахождения границ доверительного интервала.

 

Продолжение примера 1. Поскольку в примере 1 объем выборки , то, соответственно, число степеней свободы равно 9. Выбираем уровень значимости равным 0.05. По таблице находим, что искомая величина в данном случае (при имеющихся и выбранных показателях) равна 2.26. Таким образом, имеем:

,

.

 

*   *   *

Контрольная работа

 

1. В Интернете или по справочной литературе найти данные (не менее 50 значений) по значениям какой-либо случайной величины.

Это может быть изменение курса рубля по отношению к доллару (по дням, или по неделям, или по месяцам…). Это может быть изменение цен на какой-либо продукт; это может быть число выехавших туристов (по месяцам) в ту или иную страну; это могут быть примеры данных, связанных с деятельностью Вашей компании, и так далее.

2. Для найденных данных произвести  вычисления 

- среднего арифметического,

- среднего геометрического,

- моды и

- медианы;

- кроме этого, вычислить для этих же данных значения размаха выборки,

- выборочной дисперсии,

- стандартного отклонения,

- ошибки среднего;

- полученные результаты вычислений и значения из таблицы для распределения использовать для нахождения границ доверительного интервала для среднего арифметического.

3. Из этих первичных данных  построить гистограмму и полигон.

4. На примере данных о результатах  экономической деятельности фирмы, в которой Вы работаете, (стоимости продукции, работ и услуг) за отчетный и предыдущий периоды; или данных, полученных из интернета или по справочной литературе, рассчитайте индексы стоимости, цен (тарифов) и физического объема, агрегатные и средние индексы.


Информация о работе Лекция по статистике