Автор работы: Пользователь скрыл имя, 11 Мая 2012 в 13:32, лекция
Работа содержит лекцию по "Статистике" на тему: "Предмет и метод статистики"
Вопрос 1. Предмет общей теории статистики;
Вопрос 2. Стадии и методы статистического исследования;
Вопрос 3. Задачи общей теории статистики;
Используется в тех случаях, когда значения X и Y заданы в виде интервалов. В этом случае строится таблица, в которой производная группировка по факторному и результативному признакам.
По факторному группы располагаются в троках, по результативному в столбцах и на пересечении строк и столбцов появляется пара (Xi; Yi).
Xi – принадлежит i-ому интервалу факторного признака, а Yi – принадлежит i-ому интервалу результативного признака.
В
нашем примере имеется
По виду корреляционной таблицы можно определить: существует ли связь между фактором X и результативным Y.
Если в корреляционной таблице частоты вдоль некоторой диагонали, то можно предположить, что связь имеет место.
Если (наш случай) диагональ направлена от левого верхнего угла к нижнему правому, то имеет место прямая корреляционная связь.
Если диагональ от верхнего правого к нижнему левому углу, то связь обратная корреляционная.
Если частоты не концентрируются вдоль какой-либо линии, то корреляционная связь отсутствует.
Метод аналитической группировки.
Строится по факторному признаку и для каждой выделенной группы находится среднее значение и строится таблица.
Аналитическая
таблица зависимости между
Размер, кв.м. (xi) | Количество проданных квартир (f) | Стоимость квартир | |
всего по группе, тыс. у.е. | в среднем по группе, тыс. у.е. | ||
1 | 2 | 3 | 4 |
до 25 | 40 | 432,0 | 10,8 |
25-30 | 30 | 396,0 | 13,2 |
30-35 | 24 | 364,8 | 15,2 |
35 и более | 6 | 108,0 | 18,0 |
Итого: | 100 |
Рассчитаем среднее значение для 1 группы. В данному примере выделяются 4 группы факторных значений, следовательно необходимо найти 4 средних значения y (стоимость проданных квартир).
Поскольку использованы интервальные значения y и x, то при расчете средней надо брать центр интервала.
Расчет среднего значения по каждой группе произведем по формуле средне арифметической взвешенной: , в нашем случае x=y, и для 1-й группы берем центр интервала
Если при построении группировки (аналит.) с возрастанием значения x, возрастают средние значения , то имеет место прямая корреляционная связь.
Если с возрастанием x убывает, то имеет место обратная корреляц. связь.
Если систематически значения не изменяются, то корреляц. связи нет.
Задачи
измерения тесноты связи
который измеряет вариацию результативного признака y только за счет влияния группировочного фактора x признака y, обусловленное влиянием всех воздействующих факторов.
показывает меру влияния вариации фактора x на вариацию признака y.
– линейный коэффициент.
Шкала Чэддока
Величина коэффициента корреляции | Характер связи |
0,1-0,3 | слабая |
0,3-0,5 | умеренная |
0,5-0,7 | заметная |
0,7-0,9 | высокая |
0,9-0,99 | весьма высокая |
1,0 | функциональная связь |
Вопрос
3. Регрессионный
метод анализа взаимосвязи
Эмпирическая линия регрессии, построенная по точкам:
– сглаженная линия (уравнение прямой) – теоретические значения.
Регрессионный анализ заключается в нахождении формулы для выражения функции , причем эта функция должна быть приведена таким образом, чтобы расхождения между фактическими данными и полученными по формуле были минимальными.
, где – случайности отклонения, т.е.
– сглаживающая линия,
Изломы этой линии (штрих) указывает на действия случайных факторов, которые не учитываются в модели.
Для того чтобы абстрагироваться от влияния случайных факторов используют выравнивание ломаной линии по некоторой плавной сглаживающей кривой.
Эту сглаживающую линию называют теоретической линией регрессии (линия регрессии).
Она отражает теоретическую формулу связи. Эта связь возникает при условии полного взаимопоглощения всех прочих факторов случайных по отношению к фактору x.
Уравнение,
которое описывает
где f(x) – какая-то неизвестная функция, а – средняя величина признака, которая изменяется.
f(x) – функция, которая устанавливает вид однозначной зависимости между этими величинами – это расчетные теоретические значения.
Наиболее часто используются следующие типовые функции:
линейная
параболическая
связь
и другие.
Наиболее часто применяется линейная зависимость:
, где а0 – свободный член, а1 – коэффициент регрессии, который указывает на сколько единиц в среднем меняется результативный признак при изменении факторного значения на единицу его измерения.
В математической статистике доказано, что
т.е. дает совпадение в сумме:
Используя
критерий минимизации можно получить
значения неизвестных, коэффициент уравнения
регрессии:
Система нормальных уравнений:
и, соответственно
расчет коэффициента регрессии a1 и свободного члена a0:
При использовании других типовых функций образуются иные системы нормальных уравнений, для которых определены значения искомых параметров.
Решив
уравнение регрессии и получив
коэффициент уравнения, их необходимо
проверить на неслучайность, т.е. статистическую
значимость.
Вопрос
4. Пример
построения однофакторной
модели связи
Пример.
Исследовать зависимость между
суточной стоимостью туристической
путевки и длительностью
№ путевки | Длительность отдыха в днях (xi) | Суточная стоитмость путевки, у.е. (yi) | Расчетные графы | |||
|
||||||
1 | 2 | 3 | 4=2*3 | 5=2*2 | 6 | 7 |
1 | 5 | 78 | 390 | 25 | 91,6 | 185,0 |
2 | 14 | 55 | 770 | 196 | 52,5 | 6,2 |
3 | 7 | 95 | 665 | 49 | 82,9 | 146,4 |
4 | 18 | 30 | 540 | 324 | 35,1 | 26,0 |
5 | 14 | 53 | 742 | 196 | 52,5 | 0,2 |
6 | 20 | 26 | 520 | 400 | 26,4 | 0,2 |
7 | 7 | 85 | 595 | 49 | 82,9 | 4,4 |
8 | 15 | 50 | 750 | 225 | 48,1 | 3,6 |
Итого: | 100 | 472 | 4972 | 1464 | 472,0 | 372,0 |
100
80
60
40
20
5 10
15 20
Рассчитаем произведение фактора x на y и значение x2. Используем систему нормальных уравнений:
Подставим имеющиеся данные:
,
n=8, т.к. всего 8 путевок
,
Т.е.
уравнение регрессии будет
-4,34 – это коэфф. регрессии, который означает, что с увеличением длительности отдыха на 1 день, суточная стоимость путевки в среднем дешевеет на 4,34 у.е.
Приведем в таблице расчет граф 6 и 7.
Аналогично рассчитаем другие значения и внесем в таблицу.
Д.З.: Построить график между хi и
Рассчитаем квадрат отклонения фактических данных от теоретических:
Остальные по аналогии
Сумма отклонений рассчитываемых значений признака от теоретических 372, означает, что в случае использования линейной зависимости мы не сделали расхождение меньше 372 у.е.
Проверка адекватности регрессионной модели – см. стр. 20-32 лабораторки №2, но на экзамене не будет.
Расчет линейного коэффициента корреляции:
Связь получилась весьма тесной обратной.
Значение коэффициента корреляции показывает, что в уравнении регрессии связь между суточной стоимостью путевок и длительностью отдыха является тесной и обратной.
ТЕМА 8: Ряды динамики
в
анализе социально-