Автор работы: Пользователь скрыл имя, 03 Марта 2014 в 10:56, реферат
Для решения задач экономического анализа и прогнозирования очень часто используются статистические, отчетные или наблюдаемые данные. При этом полагают, что эти данные являются значениями случайной величины. Случайной величиной называется переменная величина, которая в зависимости от случая принимает различные значения с некоторой вероятностью. Закон распределения случайной величины показывает частоту ее тех или иных значений в общей их совокупности.
Регрессионный анализ используется для понимания, моделирования, прогнозирования и объяснения сложных явлений. Он помогает ответить на такие вопросы, как "Почему в США есть города, в которых оценки по тестам намного больше средних по стране?" и "Почему существуют области в городе с высоким уровнем грабежей домов?" Вы можете использовать регрессионный анализ, например, для объяснения ожирения среди детей с помощью набора связанных переменных, таких как доход, образование и доступность здоровой пищи.
Обычно регрессионный анализ позволяет ответить на эти вопросы и принять соответствующие меры. Если, например вы обнаружите, что степень ожирения среди детей меньше в школах, в которых на обед подаются свежие фрукты и овощи, вы сможете использовать эту информацию для принятия решений о программах питания в школах. Аналогично, если знать переменные, описывающие высокий уровень преступлений, можно прогнозировать будущие преступления и более эффективно выделять ресурсы для их предотвращения.
Однако, не всегда получается легко найти набор независимых переменных, с помощью которых можно ответить на ваши вопросы или объяснить сложное явление, которое вы пытаетесь смоделировать. Ожирение среди детей, уровень преступности, школьные оценки и почти все, что вы захотите смоделировать с помощью регрессионного анализа — это все очень сложные явления, которые редко дают простые ответы.
При запуске инструмента регрессии по методу наименьших квадратов вы получаете набор средств диагностики, позволяющих узнать, правильно ли вы настроили модель, которой можно доверять. Ниже описываются шесть проверок, которые необходимо пройти, чтобы быть уверенным в своей модели. Эти проверки и методы, которые можно использовать для решения распространенных задач регрессионного анализа — это ресурсы, которые действительно могут значительно облегчить вашу работу.
Выбор переменной, которую требуется изучить, спрогнозировать или смоделировать — это ваша первая задача. Эту переменную называют зависимой переменной. Ожирение среди детей, уровень преступности, школьные оценки — это зависимые переменные, моделируемые в примерах, приведенных ранее.
Затем необходимо решить, какие факторы могут объяснить вашу зависимую переменную. Такие переменные называют независимыми. В примере с ожирением среди детей независимыми переменными могут быть доход, образование и доступность здоровой пищи. Вам нужно провести собственные исследования, чтобы определить все существенные независимые переменные.
После выбора зависимых и независимых переменных вы можете приступать к анализу. Всегда начинайте анализ с использования инструмента Наименьшие квадраты (OrdinaryLeastSquares) или Исследовательская регрессия (ExploratoryRegression), так как они выполняют важные диагностические проверки и позволяют понять, нашли ли вы полезную модель или вам нужно еще потрудиться.
Инструмент OLS создает несколько выходных объектов, в том числе карту невязок регрессии и итоговый отчет. На карте невязок регрессии отображаются недооценки и переоценки вашей модели. Анализ этой карты — важный шаг при поиске хорошей модели. Итоговый отчет, в основном, числовой и содержит данные обо всех диагностических методах, используемых при прохождении шести проверок, описанных далее.
|
Инструмент OLS создает итоговый отчет и карту невязок. |
Изучив теорию и существующие исследования, вы получите набор потенциальных независимых переменных. Для каждой переменной могут существовать понятные причины для включения в модель. Но после запуска модели вы обнаружите, что некоторые независимые переменные являются статистически значимыми, а другие — нет.
Как узнать, какие независимые переменные являются статистически значимыми? Инструмент OLS вычисляет коэффициент для каждой независимой переменной в модели и выполняет статистический тест, чтобы определить, помогает ли эта переменная модели или нет. Статистический тест вычисляет вероятность того, что значение коэффициента фактически равно нулю. Если коэффициент равен нулю (или очень близок к нему), связанная независимая переменная не помогает вашей модели. Если, с другой стороны, статистический тест возвращает малую вероятность (p-значение) для определенной независимой переменной, это указывает, что коэффициент вряд ли будет равен нулю (вероятность этого мала). Если вероятность меньше 0,05, звездочка рядом с вероятностью в отчете OLS указывает, что связанная независимая переменная важна для вашей модели (другими словами, ее коэффициент статистически значим с уровнем уверенности 95%). Итак, вы ищете независимые переменные, связанные со статистически значимыми вероятностями (ищите переменные со звездочками).
Инструмент OLS вычисляет вероятность и устойчивую вероятность для каждой независимой переменной. При обработке пространственных данных отношения, моделируемые в области изучения, часто изменяются. Эти отношения называют нестационарными. При наличии нестационарых отношений можно доверять только устойчивым вероятностям при оценке статистической значимости независимой переменной.
Как узнать, являются ли отношения в вашей модели нестационарными? В итоговый отчет OLS включен еще один статистический тест, статистика Кенкера (стьюдентизированнаяКенкером статистика Бреуша-Пагана). Звездочка рядом с p-значением Кенкера указывает на то, что моделируемые отношения содержат статистически значимую нестационарность, поэтому следует принять во внимание устойчивые вероятности.
Обычно независимые переменные удаляются из модели, если не являются статистически значимыми. Однако, если теория говорит, что переменная очень важна, или определенная переменная является стержнем для вашего анализа, вы можете сохранить ее, даже если она статистически не значима.
В процессе поиска правильной модели OLS вы, скорее всего, опробуете различные независимые переменные. Помните, что коэффициенты независимых переменных (и их статистическая значимость) могут радикально изменяться в зависимости от переменных, включенных в модель.
Важно не только определить, помогает ли независимая переменная вашей модели, но и также проверить знак (+/-), связанный с каждым коэффициентом, чтобы отношения соответствовали вашим ожиданиям. Знак коэффициента независимой переменной определяет, являются ли отношения положительными или отрицательными. Предположим, вы моделируете уровень преступности, и одна из независимых переменных — это средний доход в районе. Если коэффициент переменной дохода отрицательный, это значит, что уровень преступности уменьшается при увеличении дохода в районе (отрицательные отношения). Если вы моделируете ожирение среди детей и у переменной доступности фастфуда положительный коэффициент, это означает, что степень ожирения увеличивается при повышенном доступе к фастфуду (положительные отношения).
При создании списка потенциальных независимых переменных необходимо для каждой из них включить ожидаемые отношения (положительные или отрицательные). Следует также не доверять моделям с отношениями, не соответствующими теории и/или здравому смыслу. Предположим, вы создаете модель для прогнозирования частоты лесных пожаров, а ваша модель регрессии вернула положительный коэффициент для переменной осадков. Вероятно, не следует ждать увеличения числа лесных пожаров с большим количеством дождей.