Автор работы: Пользователь скрыл имя, 25 Апреля 2014 в 23:05, курсовая работа
В экономических исследованиях часто решают задачу выявления факторов, определяющих уровень и динамику экономического процесса. Такая задача чаще всего решается методами корреляционного и регрессионного анализа. Для достоверного отображения объективно существующих в экономике процессов необходимо выявить существенные взаимосвязи и не только выявить, но и дать им количественную оценку. Этот подход требует вскрытия причинных зависимостей. Под причинной зависимостью понимается такая связь между процессами, когда изменение одного из них является следствием изменения другого.
Основными задачами корреляционного анализа являются оценка силы связи и проверка статистических гипотез о наличии и силе корреляционной связи.
Введение………………………………………………………………………….....
1.Регрессионная модель……………………………………………………………
2.Виды регрессионных моделей…………………………………………………...
2.1. Вывод уравнения простой линейной регрессии…………………………..
2.2.Метод наименьших квадратов………………………………………………
2.3.Прогнозирование в регрессионном анализе: интерполяция и экстраполяция………………………………………………………………………
2.4. Оценки изменчивости. Вычисление сумм квадратов…………………….
2.5.Коэффициент смешанной корреляции……………………………………...
2.6.Среднеквадратичная ошибка оценки………………………………………
2.7.Предположения………………………………………………………………
2.8.Анализ остатков………………………………………………………………
2.9.Оценка пригодности эмпирической модели………………………………..
2.10.Проверка условий…………………………………………………………...
2.11.Измерение автокорреляции: статистика Дурбина–Уотсона……………..
2.12. Распознавание автокорреляции с помощью графика остатков………….
2.13.Статистика Дурбина-Уотсона……………………………………………...
2.14.Проверка гипотез о наклоне и коэффициенте корреляции………………
2.15. Применение t-критерия для наклона……………………………………...
2.16. Применение F-критерия для наклона……………………………………..
2.17. Доверительный интервал, содержащий наклон β1………………………
2.18. Использование t-критерия для коэффициента корреляции……………..
2.19. Оценка математического ожидания и предсказание индивидуальных значений…………………………………………………………………………….
2.20. Построение доверительного интервала…………………………………..
2.21. Вычисление доверительного интервала для предсказанного значения…………………………………………………………………………….
2.22. Подводные камни и этические проблемы, связанные с применением регрессии……………………………………………………………………………
3. Построение регрессионной модели эффективности управления деятельностью производственной компании…………………………………….
Заключение………………………………………………………………………….
Список используемой литературы……………………………………………….
Приложения…………………………………………………………………...........
2.11.Измерение автокорреляции: статистика Дурбина–Уотсона
Одним из основных предположений о регрессионной модели является гипотеза о независимости ее ошибок. Если данные собираются в течение определенного отрезка времени, это условие часто нарушается, поскольку остаток в определенный момент времени может оказаться приблизительно равным предыдущим остаткам. Такое поведение остатков называется автокорреляцией. Если набор данных обладает свойством автокорреляции, корректность регрессионной модели становится весьма сомнительной6.
2.12Распознавание автокорреляции с помощью графика остатков
Для выявления автокорреляции необходимо упорядочить остатки по времени и построить их график. Если данные обладают положительной автокорреляцией, на графике возникнут кластеры остатков, имеющие одинаковый знак. В случае отрицательной автокорреляции остатки будут скачкообразно принимать то положительные, то отрицательные значения. Этот вид автокорреляции очень редко встречается в регрессионном анализе, поэтому мы рассмотрим лишь положительную автокорреляцию. Проиллюстрируем ее следующим примером. Предположим, что менеджер магазина, доставляющего товары на дом, пытается предсказать объем продаж по количеству клиентов, совершивших покупки в течение 15 недель (рис. 13).
Рис. 13. Количество клиентов и объемы продаж за 15 недель
Поскольку данные собирались на протяжении 15 последовательных недель в одном и том же магазине, необходимо определить, наблюдается ли эффект автокорреляции. Построим регрессию с использованием Пакета анализа; включим вывод Остатков, но не будем включать График остатков (рис. 14,ПРИЛОЖЕНИЕ 11).
Анализ рис. 14 показывает, что r2 = 0,657. Это значит, что 65,7% вариации объемов продаж объясняется изменчивостью количества клиентов. Кроме того, сдвиг b0 переменной Y равен –16,032, а наклон b1 = 0,0308. Однако, прежде чем применять эту модель, необходимо выполнить анализ остатков. Поскольку данные собирались на протяжении 15 последовательных недель, их следует отобразить на графике в том же порядке (рис. 15).
Рис. 15. Зависимость остатков от времени
Анализ рис. 15 показывает, что остатки циклически колеблются вверх и вниз. Эта цикличность является явным признаком автокорреляции. Следовательно, гипотезу о независимости остатков следует отклонить.
2.13.Статистика Дурбина-Уотсона
Автокорреляцию можно выявить и измерить с помощью статистики Дурбина-Уотсона. Эта статистика оценивает корреляцию между соседними остатками:
где еi — остаток, соответствующий i-му периоду времени.
Чтобы лучше понять статистику Дурбина-Уотсона, рассмотрим ее составные части. Числитель представляет собой сумму квадратов разностей между соседними остатками, начиная со второго и заканчивая n-м наблюдением.
На практике применение критерия Дурбина-Уотсона основано на сравнении величины D с критическими теоретическими значениями dL и dU для заданного числа наблюдений n, числа независимых переменных модели k (для простой линейной регрессии k = 1) и уровня значимости α. Если D < dL, гипотеза о независимости случайных отклонений отвергается (следовательно, присутствует положительная автокорреляция); если D > dU, гипотеза не отвергается (то есть автокорреляция отсутствует); если dL < D < dU, нет достаточных оснований для принятия решения. Когда расчётное значение Dпревышает 2, то с dL и dU сравнивается не сам коэффициент D, а выражение (4 – D).
Для вычисления статистики Дурбина-Уотсона в Excel обратимся к нижней таблице на рис. 14(ПРИЛОЖЕНИЕ 11) Вывод остатка. Числитель в выражении (10) вычисляется с помощью функции =СУММКВРАЗН(массив1;массив2), а знаменатель =СУММКВ(массив) (рис. 16,ПРИЛОЖЕНИЕ 12).
В нашем примере D = 0,883. Основной вопрос заключается в следующем — какое значение статистики Дурбина-Уотсона следует считать достаточно малым, чтобы сделать вывод о существовании положительной автокорреляции? Необходимо соотнести значение D с критическими значениями (dL и dU), зависящими от числа наблюдений n и уровня значимости α (рис. 17).
Рис. 17. Критические значения статистики Дурбина-Уотсона (фрагмент таблицы)
Таким образом, в задаче об объеме продаж в магазине, доставляющем товары на дом, существуют одна независимая переменная (k = 1), 15 наблюдений (n = 15) и уровень значимости α = 0,05. Следовательно, dL = 1,08 и dU = 1,36. Поскольку D = 0,883 < dL = 1,08, между остатками существует положительная автокорреляция, метод наименьших квадратов применять нельзя.
2.14.Проверка гипотез о наклоне и коэффициенте корреляции
Выше регрессия применялась исключительно для прогнозирования. Для определения коэффициентов регрессии и предсказания значения переменной Y при заданной величине переменной X использовался метод наименьших квадратов. Кроме того, мы рассмотрели среднеквадратичную ошибку оценки и коэффициент смешанной корреляции. Если анализ остатков подтверждает, что условия применимости метода наименьших квадратов не нарушаются, и модель простой линейной регрессии является адекватной, на основе выборочных данных можно утверждать, что между переменными в генеральной совокупности существует линейная зависимость.
2.15.Применение t-критерия для наклона
Проверяя, равен ли наклон генеральной совокупности β1 нулю, можно определить, существует ли статистически значимая зависимость между переменными X и Y. Если эта гипотеза отклоняется, можно утверждать, что между переменными X и Y существует линейная зависимость. Нулевая и альтернативная гипотезы формулируются следующим образом: Н0: β1 = 0 (нет линейной зависимости), Н1: β1 = 0 (есть линейная зависимость). По определению t-статистика равна разности между выборочным наклоном и гипотетическим значением наклона генеральной совокупности, деленной на среднеквадратичную ошибку оценки наклона:
(11) t = (b1 – β1) / Sb1
где b1 – наклон
прямой регрессии по выборочным данным,
β1 – гипотетический наклон прямой генеральной
совокупности,
, а тестовая статистика t имеет t-
Проверим, существует ли статистически значимая зависимость между размером магазина и годовым объемом продаж при α = 0,05. t-критерий выводится наряду с другими параметрами при использовании Пакета анализа (опция Регрессия). Полностью результаты работы Пакета анализа приведены на рис. 4(ПРИЛОЖЕНИЕ 3), фрагмент, относящийся к t-статистике – на рис. 18.
Рис. 18. Результаты применения t-критерия, полученные с помощью Пакета анализа Excel
Поскольку число магазинов n = 14 (см. рис.3,ПРИЛОЖЕНИЕ
2), критическое значение t-статистики
при уровне значимости α = 0,05 можно найти
по формуле: tL=СТЬЮДЕНТ.ОБР(0,
Поскольку t-статистика
= 10,64 > tU = 2,1788 (рис.
19), нулевая гипотеза Н0 отклоняется.
С другой стороны, р-значение для Х = 10,6411, вычисляемое
по формуле =1-СТЬЮДЕНТ.РАСП(D3;12;ИСТИНА)
Рис. 19. Проверка гипотезы о наклоне генеральной совокупности при уровне значимости, равном 0,05, и 12 степенях свободы
2.16.Применение F-критерия для наклона
Альтернативным подходом к проверке гипотез о наклоне простой линейной регрессии является использование F-критерия. F-критерий применяется для проверки отношения между двумя. При проверке гипотезы о наклоне мерой случайных ошибок является дисперсия ошибки (сумма квадратов ошибок, деленная на количество степеней свободы), поэтому F-критерий использует отношение дисперсии, объясняемой регрессией (т.е. величины SSR, деленной на количество независимых переменных k), к дисперсии ошибок (MSE = SYX2)7.
По определению F-статистика
равна среднему квадрату отклонений, обусловленных
регрессией (MSR), деленному на дисперсию
ошибки (MSE): F =MSR/MSE, где MSR = SSR / k, MSE = SSE/(n– k
– 1), k – количество независимых переменных
в регрессионной модели. Тестовая статистика F имеет F-
При заданном уровне значимости α решающее правило формулируется так: если F > FU, нулевая гипотеза отклоняется; в противном случае она не отклоняется8. Результаты, оформленные в виде сводной таблицы дисперсионного анализа, приведены на рис. 20.
Рис. 20. Таблица дисперсионного анализа для проверки гипотезы о статистической значимости коэффициента регрессии
Аналогично t-критерию F-
Рис. 21. Результаты применения F-критерия, полученные с помощью Пакета анализа Excel
F-статистика равна 113,23, а р-значение близко к нулю (ячейка Значимость F). Если уровень значимости α равен 0,05, определить критическое значение F-распределения с одной и 12 степенями свободы можно по формуле FU =F.ОБР(1-0,05;1;12) = 4,7472 (рис. 22). Поскольку F = 113,23 > FU = 4,7472, причем р-значение близко к 0 < 0,05, нулевая гипотеза Н0 отклоняется, т.е. размер магазина тесно связан с его годовым объемом продаж.
Рис. 22. Проверка гипотезы о наклоне генеральной совокупности при уровне значимости, равном 0,05, с одной и 12 степенями свободы
2.17.Доверительный интервал, содержащий наклон β1
Для проверки гипотезы о существовании линейной зависимости между переменными можно построить доверительный интервал, содержащий наклон β1 и убедиться, что гипотетическое значение β1 = 0 принадлежит этому интервалу. Центром доверительного интервала, содержащего наклон β1, является выборочный наклон b1, а его границами — величины b1 ± tn–2Sb19
Как показано на рис. 18, b1 = +1,670, n = 14, Sb1 = 0,157. t12=СТЬЮДЕНТ.ОБР(0,975;
2.18.Использование t-критерия для коэффициента корреляции
Обозначим коэффициент корреляции между генеральными совокупностями обеих переменных символом ρ. Нулевая и альтернативная гипотезы формулируются следующим образом: Н0: ρ = 0 (нет корреляции), Н1: ρ ≠ 0 (есть корреляция). Проверка существования корреляции:
где r = +
, если b1 > 0, r = –
, если b1 < 0. Тестовая
статистика t имеет t-
В задаче о сети магазинов Sunflowers r2 = 0,904, а b1— +1,670 (см. рис. 4,ПРИЛОЖЕНИЕ 3). Поскольку b1 > 0, коэффициент корреляции между объемом годовых продаж и размером магазина равен r = +√0,904 = +0,951. Проверим нулевую гипотезу, утверждающую, что между этими переменными нет корреляции, используя t-статистику:
При уровне значимости α = 0,05 нулевую гипотезу следует отклонить, поскольку t = 10,64 > 2,1788. Таким образом, можно утверждать, что между объемом годовых продаж и размером магазина существует статистически значимая связь.
При обсуждении выводов, касающихся наклона генеральной совокупности, доверительные интервалы и критерии для проверки гипотез являются взаимозаменяемыми инструментами. Однако вычисление доверительного интервала, содержащего коэффициент корреляции, оказывается более сложным делом, поскольку вид выборочного распределения статистики r зависит от истинного коэффициента корреляции.
2.19.Оценка математического ожидания и предсказание индивидуальных значений
В этом разделе рассматриваются методы оценки математического ожидания отклика Y и предсказания индивидуальных значений Y при заданных значениях переменной X.
2.20.Построение доверительного интервала
Можно ввести понятие доверительного интервала для математического ожидания отклика при заданном значении переменной X:
где , = b0 + b1Xi – предсказанное значение переменное Yпри X = Xi, SYX – среднеквадратичная ошибка, n – объем выборки, Xi — заданное значение переменной X, µY|X=Xi – математическое ожидание переменной Y при Х =Хi, SSX =
Анализ формулы (13) показывает, что ширина доверительного интервала зависит от нескольких факторов. При заданном уровне значимости возрастание амплитуды колебаний вокруг линии регрессии, измеренное с помощью среднеквадратичной ошибки, приводит к увеличению ширины интервала. С другой стороны, как и следовало ожидать, увеличение объема выборки сопровождается сужением интервала. Кроме того, ширина интервала изменяется в зависимости от значений Xi. Если значение переменной Y предсказывается для величин X, близких к среднему значению , доверительный интервал оказывается уже, чем при прогнозировании отклика для значений, далеких от среднего.
Допустим, что, выбирая место для магазина, мы хотим построить 95%-ный доверительный интервал для среднего годового объема продаж во всех магазинах, площадь которых равна 4000 кв. футов:
Следовательно, средний годовой объем продаж во всех магазинах, площадь которых равна 4 000 кв. футов, с 95% -ной вероятностью лежит в интервале от 6,971 до 8,317 млн. долл.
2.21.Вычисление доверительного интервала для предсказанного значения
Кроме доверительного интервала для математического ожидания отклика при заданном значении переменной X, часто необходимо знать доверительный интервал для предсказанного значения. Несмотря на то, что формула для вычисления такого доверительного интервала очень похожа на формулу (13), этот интервал содержит предсказанное значение, а не оценку параметра. Интервал для предсказанного отклика YX=Xi при конкретном значении переменной Xi определяется по формуле: