Автор работы: Пользователь скрыл имя, 25 Апреля 2014 в 23:05, курсовая работа
В экономических исследованиях часто решают задачу выявления факторов, определяющих уровень и динамику экономического процесса. Такая задача чаще всего решается методами корреляционного и регрессионного анализа. Для достоверного отображения объективно существующих в экономике процессов необходимо выявить существенные взаимосвязи и не только выявить, но и дать им количественную оценку. Этот подход требует вскрытия причинных зависимостей. Под причинной зависимостью понимается такая связь между процессами, когда изменение одного из них является следствием изменения другого.
Основными задачами корреляционного анализа являются оценка силы связи и проверка статистических гипотез о наличии и силе корреляционной связи.
Введение………………………………………………………………………….....
1.Регрессионная модель……………………………………………………………
2.Виды регрессионных моделей…………………………………………………...
2.1. Вывод уравнения простой линейной регрессии…………………………..
2.2.Метод наименьших квадратов………………………………………………
2.3.Прогнозирование в регрессионном анализе: интерполяция и экстраполяция………………………………………………………………………
2.4. Оценки изменчивости. Вычисление сумм квадратов…………………….
2.5.Коэффициент смешанной корреляции……………………………………...
2.6.Среднеквадратичная ошибка оценки………………………………………
2.7.Предположения………………………………………………………………
2.8.Анализ остатков………………………………………………………………
2.9.Оценка пригодности эмпирической модели………………………………..
2.10.Проверка условий…………………………………………………………...
2.11.Измерение автокорреляции: статистика Дурбина–Уотсона……………..
2.12. Распознавание автокорреляции с помощью графика остатков………….
2.13.Статистика Дурбина-Уотсона……………………………………………...
2.14.Проверка гипотез о наклоне и коэффициенте корреляции………………
2.15. Применение t-критерия для наклона……………………………………...
2.16. Применение F-критерия для наклона……………………………………..
2.17. Доверительный интервал, содержащий наклон β1………………………
2.18. Использование t-критерия для коэффициента корреляции……………..
2.19. Оценка математического ожидания и предсказание индивидуальных значений…………………………………………………………………………….
2.20. Построение доверительного интервала…………………………………..
2.21. Вычисление доверительного интервала для предсказанного значения…………………………………………………………………………….
2.22. Подводные камни и этические проблемы, связанные с применением регрессии……………………………………………………………………………
3. Построение регрессионной модели эффективности управления деятельностью производственной компании…………………………………….
Заключение………………………………………………………………………….
Список используемой литературы……………………………………………….
Приложения…………………………………………………………………...........
Содержание
Введение…………………………………………………………
1.Регрессионная модель……………………………………………………………
2.Виды регрессионных моделей……
2.1. Вывод уравнения простой линейной регрессии…………………………..
2.2.Метод наименьших квадратов………………………………………………
2.3.Прогнозирование в регрессионном
анализе: интерполяция и экстраполяция……………………………………………
2.4. Оценки изменчивости. Вычисление сумм квадратов…………………….
2.5.Коэффициент смешанной корреляции……………………………………...
2.6.Среднеквадратичная ошибка оценки………………………………………
2.7.Предположения…………………………………
2.8.Анализ остатков……………………………
2.9.Оценка пригодности
эмпирической модели……………………………
2.10.Проверка условий………………………
2.11.Измерение автокорреляции:
статистика Дурбина–Уотсона…………
2.12. Распознавание автокорреляции с помощью графика остатков………….
2.13.Статистика Дурбина-Уотсона………………………………………
2.14.Проверка гипотез о наклоне и коэффициенте корреляции………………
2.15. Применение t-критерия для наклона……………………………………...
2.16. Применение F-критерия для наклона……………………………………..
2.17. Доверительный интервал, содержащий наклон β1………………………
2.18. Использование t-критерия для коэффициента корреляции……………..
2.19. Оценка математического ожидания
и предсказание индивидуальных значений…………………………………………………………
2.20. Построение доверительного интервала…………………………………..
2.21. Вычисление доверительного
интервала для предсказанного значения…………………………………………………………
2.22. Подводные камни и этические
проблемы, связанные с применением регрессии………………………………………………………
3. Построение регрессионной модели эффективности управления деятельностью производственной компании…………………………………….
Заключение……………………………………………………
Список используемой литературы……………………………………………….
Приложения……………………………………………………
Введение
Обработка статистических данных уже давно применяется в самых разнообразных видах человеческой деятельности. Вообще говоря, трудно назвать ту сферу, в которой она бы не использовалась. Но, пожалуй, ни в одной области знаний и практической деятельности обработка статистических данных не играет такой исключительно большой роли, как в экономике, имеющей дело с обработкой и анализом огромных массивов информации о социально-экономических явлениях и процессах. Всесторонний и глубокий анализ этой информации, так называемых статистических данных, предполагает использование различных специальных методов, важное место среди которых занимает корреляционный и регрессионный анализы обработки статистических данных.
В экономических исследованиях часто решают задачу выявления факторов, определяющих уровень и динамику экономического процесса. Такая задача чаще всего решается методами корреляционного и регрессионного анализа. Для достоверного отображения объективно существующих в экономике процессов необходимо выявить существенные взаимосвязи и не только выявить, но и дать им количественную оценку. Этот подход требует вскрытия причинных зависимостей. Под причинной зависимостью понимается такая связь между процессами, когда изменение одного из них является следствием изменения другого.
Основными задачами корреляционного анализа являются оценка силы связи и проверка статистических гипотез о наличии и силе корреляционной связи. Не все факторы, влияющие на экономические процессы, являются случайными величинами, поэтому при анализе экономических явлений обычно рассматриваются связи между случайными и неслучайными величинами. Такие связи называются регрессионными, а метод математической статистики, их изучающий, называется регрессионным анализом.
1 Регрессионная модель
Термину регрессионная модель, используемому в регрессионном анализе, можно сопоставить синонимы: «теория», «гипотеза». Эти термины пришли из статистики, в частности из раздела «проверка статистических гипотез». Регрессионная модель есть прежде всего гипотеза, которая должна быть подвергнута статистической проверке, после чего она принимается или отвергается.
Регрессионная модель — это параметрическое семейство функций, задающее отображение
где — пространство параметров, — пространство свободных переменных, — пространство зависимых переменных.
Так как регрессионный анализ предполагает поиск зависимости матожидания случайной величины от свободных переменных , то в её состав входит аддитивная случайная величина :
Предположение о характере распределения случайной величины называются гипотезой порождения данных. Эта гипотеза играет центральную роль в выборе критерия оценки качества модели и, как следствие, в способе настройки параметров модели.
Модель является настроенной (обученной) когда зафиксированы её параметры, то есть модель задаёт отображение
для фиксированного значения .
Различают математическую модель и регрессионную модель. Математическая модель предполагает участие аналитика в конструировании функции, которая описывает некоторую известную закономерность. Математическая модель является интерпретируемой — объясняемой в рамках исследуемой закономерности1. При построении математической модели сначала создаётся параметрическое семейство функций, затем с помощью измеряемых данных выполняется идентификация модели — нахождение её параметров. Известная функциональная зависимость объясняющей переменной и переменной отклика — основное отличие математического моделирования от регрессионного анализа. Недостаток математического моделирования состоит в том, что измеряемые данные используются для верификации, но не для построения модели, вследствие чего можно получить неадекватную модель. Также затруднительно получить модель сложного явления, в котором взаимосвязано большое число различных факторов.
Регрессионная модель объединяет широкий класс универсальных функций, которые описывают некоторую закономерность. При этом для построения модели в основном используются измеряемые данные, а не знание свойств исследуемой закономерности. Такая модель часто не интерпретируема, но более точна. Это объясняется либо большим числом моделей-претендентов, которые используются для построения оптимальной модели, либо большой сложностью модели. Нахождение параметров регрессионной модели называется обучением модели.
Недостатки регрессионного анализа: модели, имеющие слишком малую сложность, могут оказаться неточными, а модели, имеющие избыточную сложность, могут оказаться переобученными.
Примеры регрессионных моделей: линейные функции, алгебраические полиномы, ряды Чебышёва, нейронные сети без обратной связи, например, однослойный персептрон Розенблатта, радиальные базисные функции и прочее.
И регрессионная, и математическая модель, как правило, задают непрерывное отображение. Требование непрерывности обусловлено классом решаемых задач: чаще всего это описание физических, химических и других явлений, где требование непрерывности выставляется естественным образом. Иногда на отображение накладываться ограничения монотонности, гладкости, измеримости, и некоторые другие2. Теоретически, никто не запрещает работать с функциями произвольного вида, и допускать в моделях существование не только точек разрыва, но и задавать конечное, неупорядоченное множество значений свободной переменной, то есть, превращать задачи регрессии в задачи классификации.
При решении задач регрессионного анализа встают следующие вопросы.
2 Виды регрессионных моделей
Пример простейшей (линейной) зависимости показан на рис. 1.
Рис. 1. Положительная линейная зависимость
Простая линейная регрессия:
(1) Yi = β0 + β1Xi + εi
где β0 — сдвиг (длина отрезка, отсекаемого на координатной оси прямой Y), β1 — наклон прямой Y, εi — случайная ошибка переменной Y в i-м наблюдении.
В этой модели наклон β1 представляет собой количество единиц измерения переменной Y, приходящихся на одну единицу измерения переменной X. Эта величина характеризует среднюю величину изменения переменной Y(положительного или отрицательного) на заданном отрезке оси X. Сдвиг β0представляет собой среднее значение переменной Y, когда переменная X равна 0. Последний компонент модели εi является случайной ошибкой переменной Y в i-м наблюдении. Выбор подходящей математической модели зависит от распределения значений переменных X и Y на диаграмме разброса. Различные виды зависимости переменных показаны на рис. 2.(ПРИЛОЖЕНИЕ 1)
На панели А значения переменной Y почти линейно возрастают с увеличением переменной X. Этот рисунок аналогичен рис. 1, иллюстрирующему положительную зависимость между размером магазина (в квадратных футах) и годовым объемом продаж. Панель Б является примером отрицательной линейной зависимости. Если переменная X возрастает, переменная Y в целом убывает. Примером этой зависимости является связь между стоимостью конкретного товара и объемом продаж. На панели В показан набор данных, в котором переменные X и Y практически не зависят друг от друга. Каждому значению переменной X соответствуют как большие, так и малые значения переменной Y. Данные, приведенные на панели Г, демонстрируют криволинейную зависимость между переменными X и Y. Значения переменной Y возрастают при увеличении переменной X, однако скорость роста после определенных значений переменной X падает. Примером положительной криволинейной зависимости является связь между возрастом и стоимостью обслуживания автомобилей. По мере старения машины стоимость ее обслуживания сначала резко возрастает, однако после определенного уровня стабилизируется. Панель Д демонстрирует параболическую U-образную форму зависимости между переменными X и Y. По мере увеличения значений переменной X значения переменной Y сначала убывают, а затем возрастают. Примером такой зависимости является связь между количеством ошибок, совершенных за час работы, и количеством отработанных часов. Сначала работник осваивается и делает много ошибок, потом привыкает, и количество ошибок уменьшается, однако после определенного момента он начинает чувствовать усталость, и число ошибок увеличивается. На панели Е показана экспоненциальная зависимость между переменными X и Y. В этом случае переменная Y сначала очень быстро убывает при возрастании переменной X, однако скорость этого убывания постепенно падает. Например, стоимость автомобиля при перепродаже экспоненциально зависит от его возраста. Если перепродавать автомобиль в течение первого года, его цена резко падает, однако впоследствии ее падение постепенно замедляется.
Мы кратко рассмотрели основные модели, которые позволяют формализовать зависимости между двумя переменными. Несмотря на то, что диаграмма разброса чрезвычайно полезна при выборе математической модели зависимости, существуют более сложные и точные статистические процедуры, позволяющие описать отношения между переменными.
2.1Вывод уравнения простой линейной регрессии
Наша цель — предсказать объем годовых продаж для всех новых магазинов, зная их размеры. Для оценки зависимости между размером магазина (в квадратных футах) и объемом его годовых продаж создадим выборки из 14 магазинов (рис. 3 ПРИЛОЖЕНИЕ 2).
Анализ рис. 3 показывает, что между площадью магазина X и годовым объемом продаж Y существует положительная зависимость. Если площадь магазина увеличивается, объем продаж возрастает почти линейно. Таким образом, наиболее подходящей для исследования является линейная модель. Остается лишь определить, какая из линейных моделей точнее остальных описывает зависимость между анализируемыми переменными.
2.2Метод наименьших квадратов
Данные, представленные на рис. 3а, получены для случайной выборки магазинов. Если верны некоторые предположения (об этом чуть позже), в качестве оценки параметров генеральной совокупности (β0 и β1) можно использовать сдвиг b0 и наклон b1 прямой Y. Таким образом, уравнение простой линейной регрессии принимает следующий вид:
где — предсказанное значение переменной Y для i-гo наблюдения, Xi — значение переменной X в i-м наблюдении.
Для того чтобы предсказать значение переменной Y, в уравнении (2) необходимо определить два коэффициента регрессии — сдвиг b0 и наклон b1 прямой Y. Вычислив эти параметры, проведем прямую на диаграмме разброса. Затем исследователь может визуально оценить, насколько близка регрессионная прямая к точкам наблюдения. Простая линейная регрессия позволяет найти прямую линию, максимально приближенную к точкам наблюдения. Критерии соответствия можно задать разными способами. Возможно, проще всего минимизировать разности между фактическими значениями Yi, и предсказанными значениями . Однако, поскольку эти разности могут быть как положительными, так и отрицательными, следует минимизировать сумму их квадратов.
Поскольку = b0 + b1Xi, сумма квадратов принимает следующий вид:
Параметры b0 и b1 неизвестны. Таким образом, сумма квадратов разностей является функцией, зависящей от сдвига b0 и наклона b1 выборки Y. Для того чтобы найти значения параметров b0 и b1, минимизирующих сумму квадратов разностей, применяется метод наименьших квадратов. При любых других значениях сдвига b0 и наклона b1 сумма квадратов разностей между фактическими значениями переменной Y и ее наблюдаемыми значениями лишь увеличится.
До того, как Excel взял на себя всю рутинную работу, вычисления по методу наименьших квадратов были очень трудоемкими. Excel позволяет решать подобные задачи двумя способами. Во-первых, можно воспользоваться Пакетом анализа (строка Регрессия). Результаты представлены на рис. 4(ПРИЛОЖЕНИЕ 3). Во-вторых, можно, выделив точки на графике (как на рис. 3б,ПРИЛОЖЕНИЕ 2), кликнуть правой кнопкой мыши и выбрать Добавить линию тренда. Далее можно выбрать вид линии тренда (в нашем случае – Линейная), отформатировать линию, показать на графике уравнение и величину достоверности аппроксимации (R2) (рис. 5,ПРИЛОЖЕНИЕ 4).