Автор работы: Пользователь скрыл имя, 14 Апреля 2014 в 12:18, реферат
Слово «статистика» настолько широко используется в современном мире, что порой не ясно, о чем же собственно идет речь. Казалось бы, словосочетания «статистика футбольного матча» и «математическая статистика» должны иметь что-то общее, ведь и там и там речь идет о некоей статистике. Увы, это далеко не так: в первом случае речь идет о неких суммарных данных (столько-то голов забито, столько-то получено желтых и красных карточек игроками, столько-то минут добавлено арбитром в первом и во втором тайме и так далее). Во втором – о методах и приемах анализа данных применительно к данным самой разной природы.
Л.В. Недорезов, Петров А.П.
ЛЕКЦИЯ И ЗАДАНИЕ
Слово «статистика» настолько широко используется в современном мире, что порой не ясно, о чем же собственно идет речь. Казалось бы, словосочетания «статистика футбольного матча» и «математическая статистика» должны иметь что-то общее, ведь и там и там речь идет о некоей статистике. Увы, это далеко не так: в первом случае речь идет о неких суммарных данных (столько-то голов забито, столько-то получено желтых и красных карточек игроками, столько-то минут добавлено арбитром в первом и во втором тайме и так далее). Во втором – о методах и приемах анализа данных применительно к данным самой разной природы. Таким образом, в первом случае речь идет о некоей форме представления данных о футбольном матче в базу данных (если, конечно, таковая существует), которые еще требуют своего дальнейшего анализа, то во втором случае речи о какой-либо базе данных вообще нет.
Хорошо, когда речь идет о статистике футбольного матча – многие понимают, о чем идет речь. Когда же речь заходит, например, о «статистике туризма», то это сразу же вызывает и непонимание, и недоумение. О чем же действительно идет речь? Идет ли речь о числе отдохнувших на Кипре или же о существовании каких-то специальных методов, используемых исключительно в данной науке, именуемой «статистика туризма». Конечно, имеется и еще один вариант: «статистика туризма» - это всем хорошо известная прикладная статистика с примерами из туристического бизнеса. Если речь идет о числе отдохнувших там-то и там-то, то тогда студентам следует читать курс по формированию специфических (для данного вида бизнеса) баз данных. Если же это прикладная статистика с соответствующими примерами, то тогда студентам следует читать курс прикладной статистики с решением примеров, которые представляют интерес для развития туристического бизнеса.
То, что было сказано выше о «статистике туризма», в полной мере относится и к «статистике системы здравоохранения», и к «статистике науки и инноваций», «статистике национального богатства», «статистике труда», «статистике населения» и ко всем прочим статистикам. И чтобы не было в дальнейшем путаницы, мы будем говорить только о прикладной статистике, об анализе данных, а не об их накоплении или записи в какую-либо базу данных. При этом рассматриваемые примеры будут иметь отношение к соответствующей области человеческой деятельности.
Современная статистика (или, можно сказать иначе, наука, занимающаяся вопросами анализа информации, накопленной в результате наблюдений или экспериментов) обладает рядом характерных черт, которые нужно учитывать при работе с данными. Прежде всего, нужно понимать, что статистика – наука договорная. Например, считается, что для получения хорошей оценки для среднего арифметического необходимо иметь примерно десять значений случайной величины. Для оценки дисперсии – тридцать значений. Многие методы анализа данных базируются на предположении, что исходные данные распределены по нормальному закону. Считается также, что если некое событие произошло, а его вероятность меньше величины 0.05 (или 0.01, или 0.001 – выбор этой величины зависит от самого исследователя), то произошло практически невозможное событие. И это дает нам право высказать некое утверждение об имеющихся данных. Заметим, что вероятность 0.05 не такая уж и маленькая, но, тем не менее, результат, полученный с такой вероятностью, считается невозможным и противоречащим неким нашим исходным предположениям. Итак, необходимо повторить еще раз – в статистике существует ряд общепринятых договоренностей, которым необходимо следовать при обработке (анализе) исходных данных.
Несколько слов о том, для чего нужна статистика. Представим себе такую ситуацию. Каждый из присутствующих закончил с отличием СПбГУСЭ, получил диплом о высшем образовании, решил заняться своим собственным бизнесом и открыл свой маленький обувной магазин. Заключил договор с поставщиком, чтобы тот каждый месяц поставлял равные по количеству партии обуви всех требуемых размеров. Что же произойдет через месяц-другой? Начнется обычное затоваривание: одних размеров обуви на складе скопятся горы, в то время как других будет хронически не хватать. В чем же дело? А все дело в том, что спрос на тот или иной вид обуви случайный (и мы не можем заранее спланировать сколько и какой именно обуви купят в тот или иной день, месяц, год…), и покупателям совсем неинтересно, сколько и какой обуви вы получаете от поставщика.
Понятно, что затоваривание может обернуться огромными потерями (необходимо платить за складские помещения, воровство, насекомые-вредители, крысы и так далее). Чтобы избавиться от этого и уменьшить свои потери, вы решаете проанализировать те данные, которые скопились у вас к этому моменту времени (благо, что современные средства, кассовые аппараты позволяют сохранить всю эту информацию). Итак, по каждому виду обуви вы получаете следующую информацию: в первый день было куплено пар обуви, во второй день - пар обуви, и так далее. В последний -ый день - пар обуви. Для простоты будем считать, что дням (два месяца). За это же время (в начале каждого месяца) вы получили от поставщика пар данного вида обуви.
Определение 1. Совокупность результатов экспериментов или наблюдений , ,…, называется выборкой. Величина называется объемом выборки.
Вы начинаете анализировать полученную выборку по продаже данного вида обуви (понятно, что по всем другим видам обуви анализ будет проводиться по точно такой же схеме). Сразу же замечаете, что, если выполняется равенство
и при этом ( ), то данного вида обуви вам не хватает (и по крайней мере в самый последний день его в магазине уже не было). Если так, то при подписании нового договора с поставщиком объем поставок данного вида товара может быть увеличен (а насколько именно – это зависит, прежде всего, от скорости его потребления).
Если же выполняется неравенство
то это означает, что данный вид товара не был распродан полностью. Соответственно, при заключении нового договора с поставщиком объем поставок должен быть уменьшен. А насколько же именно он должен быть уменьшен?
И тут вы вспоминаете, что был некий курс статистики, где объясняли, как именно следует анализировать вот такие случайные данные, как определить происходит ли нарастание спроса на тот или иной вид товара или же, наоборот, происходит спад. А также множество других важных и полезных методов анализа данных, которые позволяют и минимизировать риск, и увеличить прибыль, и дать надежный прогноз изменения во времени важных и/или интересных показателей…
В современной статистике существует огромное число разделов, предназначенных для решения различных групп задач. Из всего этого множества разделов можно выделить четыре основных или базовых раздела, без знания которых понять цели и задачи других разделов будет крайне проблематично.
Первый раздел: оценки и их свойства, доверительные интервалы, проверка гипотез. Второй раздел: корреляционный анализ. Третий раздел: регрессионный анализ. И четвертый раздел: дисперсионный анализ.
Рассмотрим кратко содержание первого раздела.
Определение 2. Любая функция от элементов выборки называется оценкой.
Самая простая оценка, с которой многие сталкивались еще в школе, - это среднее арифметическое, когда все годовые оценки, полученные школьником, складываются и делятся на число предметов:
, (1)
где - число школьных предметов (объем выборки), а - оценка, полученная за тот или иной учтенный предмет.
Прежде, чем рассматривать другие оценки, необходимо определить те группы данных, для которых предназначены те или иные оценки. Существуют различные классификации данных, но в первом приближении можно выделить следующие три основные группы. Первую группу составляют количественные данные, для которых выполняются все арифметические операции (по крайней мере, они осмыслены). К таким данным могут быть отнесены цены на товар, объем продаж или закупок и так далее.
Вторую группу составляют ранговые данные (их еще также называют категоризированные данные) – это такие данные, для которых мы можем указать отношение порядка (что-то больше чего-то), но все арифметические операции (или же их часть) в действительности лишены смысла. Пример: мы разбили всех сотрудников фирмы на две категории – 1 категория - до 50 лет, и 2 категория - после 50 лет. Понятно, что все сотрудники, которые принадлежат к первой группе, младше всех тех сотрудников, которые принадлежат ко второй группе. Но никаких оснований утверждать, что одни старше других в два раза у нас нет. В рассматриваемом примере мы не можем поделить одно число на другое (вследствие бессмысленности такой операции), но можем воспользоваться формулой (1) и найти среднее арифметическое. Оно, среднее арифметическое, в общем-то тоже лишено смысла, но допускает некую осмысленную интерпретацию: если полученное значение среднего арифметического больше 1.5, то это означает, что сотрудников второй (старшей) группы в фирме больше, чем сотрудников первой (младшей) группы.
Сходная ситуация наблюдается и со школьными отметками. Тот, кто знает предмет на пять, вовсе не в два с половиной раза знает лучше того, кто знает на два. Поскольку тот, кто знает на два, предмета вообще не знает (и в этом случае надо было бы делить на ноль). И тот, кто знает на три – тоже не в полтора раза знает предмет лучше двоечника. Так что понятно, что операция деления в данном случае лишена какого-либо смысла. Среднее арифметическое еще сохраняет некий смысл, однако, далеко не в полной мере отражает способности ученика.
Наконец, третью группу составляют качественные данные, для которых мы не можем указать даже отношение порядка. К таким данным могут быть отнесены цвет обуви, фасон обуви и так далее.
Сейчас мы будем рассматривать только количественные данные. Однако, нужно помнить, что в современной статистике для каждого типа данных существуют свои методы и приемы анализа.
Среднее арифметическое – не единственная оценка такого плана, которая позволяет как-то характеризовать имеющуюся выборку. Можно указать еще ряд аналогичных оценок, также дающих некие средние значения. Например, среднее геометрическое, определяемое следующей формулой:
.
(Для вычисления среднего
Здесь важно отметить, что, в отличие от среднего арифметического (1), среднее геометрическое существует не всегда. Если в выражении (2) - четное, а под корнем стоит отрицательное число, то среднего геометрического не существует (формально, конечно, оно существует, но характеризовать вещественную выборку чисто мнимым или комплексным числом нецелесообразно).
Еще одной характеристикой выборки служит медиана.
Определение 3. Медианой называется такое значение на действительной оси, по обе стороны от которого находится одинаковое количество элементов выборки.
Пусть сначала объем выборки - четное число и все числа в выборке разные. Пусть также выборка ранжирована:
У такой выборки существуют два «средних» элемента с номерами и . Поскольку все элементы выборки разные, то любое число, находящееся между элементами выборки с номерами и удовлетворяет определению оценки медианы. На практике берут в качестве оценки среднее арифметическое этих двух элементов выборки:
Если же нечетное и все элементы выборки разные, то оценкой медианы является «средний» элемент выборки с номером :
Наконец, все вычисления оценки медианы остаются в силе и в том случае, когда в выборке есть одинаковые элементы. Но при этом важно помнить одно – если мы проводим границу так, что она совпадает с несколькими одинаковыми элементами выборки, то эти точки не относятся ни к одной, ни к другой стороне. В таком случае вполне может реализоваться ситуация, при которой медианы не существует. Например, выборка из следующих четырех элементов - , - не имеет медианы. Если мы проводим границу через точку , то слева от границы нет ни одной точки, а справа – ровно одна точка . Любая точка из открытого интервала также не может быть медианой – слева от нее будет лежать три точки (нули), а справа – только одна (точка один). Таким образом, мы не можем выбрать какое-либо значение на числовой оси, слева и справа от которого лежит одинаковое число точек выборки.
Наконец, имеется еще одна характеристика выборки этого же уровня – мода.
Определение 4. Для непрерывной случайной величины модой называется такое ее значение (или значения), при которой плотность достигает своего максимума (локального или глобального). Если плотность имеет один максимум (как, например, нормальное распределение), то такое распределение называется унимодальным. Если два максимума – бимодальным; в общем случае распределение может быть полимодальным.
Определение 5. Для дискретной случайной величины модой называется такое значение (или значения) случайной величины, которое имеет наибольшую вероятность (при статистическом анализе выборки из значений дискретной случайной величины модой считается такое значение, которое встречается в выборке чаще других).
В литературе встречается мнение, что мода в основном используется для данных третьего типа (для качественных данных; например, можно заметить, что мужские ботинки черного цвета покупают чаще, чем мужские ботинки других цветов). Однако, понятно, что мода может быть вычислена и для количественных данных. Если, например, мы имеем выборку значений дискретной случайной величины, то модой является число ; данная выборка унимодальна. Если имеем выборку , то выборка бимодальна – мода равна и , .
Для непрерывной случайной величины определение моды встречает определенные трудности, связанные с тем, что фактически не существует такого метода, который бы гарантировал однозначное и правильное восстановление искомой плотности распределения случайной величины. Мы рассмотрим только один из множества существующих методов, который по своей сути является полуэмпирическим.
Итак, пусть нам дана выборка , ,…, , в которой все значения – вещественные числа. Поскольку сейчас мы рассматриваем случай, когда все эти значения являются значениями непрерывной случайной величины, то вероятность того, что в выборке есть совпадающие числа, равна нулю. Идея нахождения моды проста: сначала участок прямой, где располагаются экспериментальные точки, делим на некие интервалы одинаковой длины, а потом подсчитываем число точек выборки, которые попали в каждый из таких интервалов. Средняя точка интервала, в который попало больше всего точек выборки, объявляется модой. Алгоритм построения эмпирической плотности распределения (гистограммы) состоит из следующих этапов:
Сначала вычисляем размах выборки по формуле:
(размах выборки по