Регрессионные модели

Автор работы: Пользователь скрыл имя, 16 Сентября 2014 в 10:56, контрольная работа

Краткое описание

Термину регрессионная модель, используемому в регрессионном анализе, можно сопоставить синонимы: «теория», «гипотеза». Эти термины пришли из статистики, в частности из раздела «проверка статистических гипотез». Регрессионная модель есть прежде всего гипотеза, которая должна быть подвергнута статистической проверке, после чего она принимается или отвергается.
Регрессионная модель — это параметрическое семейство функций, задающее отображение
где — пространтсво параметров, — пространство свободных переменных, — пространство зависимых переменных.

Вложенные файлы: 1 файл

модели.docx

— 51.61 Кб (Скачать файл)

Термину регрессионная модель, используемому в регрессионном анализе, можно сопоставить синонимы: «теория», «гипотеза». Эти термины пришли из статистики, в частности из раздела «проверка статистических гипотез». Регрессионная модель есть прежде всего гипотеза, которая должна быть подвергнута статистической проверке, после чего она принимается или отвергается.

Регрессионная модель   — это параметрическое семейство функций, задающее отображение

где   — пространтсво параметров,   — пространство свободных переменных,   — пространство зависимых переменных.

Так как регрессионный анализ предполагает поиск зависимости матожидания случайной величины от свободных переменных  , то в её состав входит аддитивная случайная величина  :

Предположение о характере распределения случайной величины   называются гипотезой порождения данных. Эта гипотеза играет центральную роль в выборе критерия оценки качества модели и, как следствие, в способе настройки параметров модели.

Модель является настроенной (обученной) когда зафиксированы её параметры, то есть модель задаёт отображение

ƒ:X→Y

для фиксированного значения  .

Различают математическую модель и регрессионную модель. Математическая модель предполагает участие аналитика в конструировании функции, которая описывает некоторую известную закономерность. Математическая модель является интерпретируемой — объясняемой в рамках исследуемой закономерности. При построении математической модели сначала создаётся параметрическое семейство функций, затем с помощью измеряемых данных выполняется идентификация модели — нахождение её параметров. Известная функциональная зависимость объясняющей переменной и переменной отклика — основное отличие математического моделирования от регрессионного анализа. Недостаток математического моделирования состоит в том, что измеряемые данные используются для верификации, но не для построения модели, вследствие чего можно получить неадекватную модель. Также затруднительно получить модель сложного явления, в котором взаимосвязано большое число различных факторов.

Регрессионная модель объединяет широкий класс универсальных функций, которые описывают некоторую закономерность. При этом для построения модели в основном используются измеряемые данные, а не знание свойств исследуемой закономерности. Такая модель часто неинтерпретируема, но более точна. Это объясняется либо большим числом моделей-претендентов, которые используются для построения оптимальной модели, либо большой сложностью модели. Нахождение параметров регрессионной модели называется обучением модели.

Недостатки регрессионного анализа: модели, имеющие слишком малую сложность, могут оказаться неточными, а модели, имеющие избыточную сложность, могут оказаться переобученными.

Примеры регрессионных моделей: линейные функции, алгебраические полиномы, ряды Чебышёва, нейронные сети без обратной связи, например, однослойный персептрон Розенблатта, радиальные базисные функции и прочее.

И регрессионная, и математическая модель, как правило, задают непрерывное отображение. Требование непрерывности обусловлено классом решаемых задач: чаще всего это описание физических, химических и других явлений, где требование непрерывности выставляется естественным образом.

Иногда на отображение   накладываться ограничения монотонности, гладкости, измеримости, и некоторые другие. Теоретически, никто не запрещает работать с функциями произвольного вида, и допускать в моделях существование не только точек разрыва, но и задавать конечное, неупорядоченное множество значений свободной переменной, то есть, превращать задачи регрессии в задачи классификации.

При решении задач регрессионного анализа встают следующие вопросы.

  • Как выбрать тип и структуру модели, какому именно семейству она должна принадлежать?
  • Какова гипотеза порождения данных, каково распределение случайной переменной?
  • Какой целевой функцией оценить качество аппроксимации?
  • Каким способом отыскать параметры модели, каков должен быть алгоритм оптимизации параметров?

 

Регрессионные модели

Моделирование процессов

Для исследования вида и формы зависимостей вида Y(X) широко применяется регрессионный анализ, который является методическим инструментарием при решении разнообразных задач управления (прогнозирования, планирования, анализа результатов и т.д.). В большинстве случаев функция Y или аргумент X - случайные величины, подверженные действию многочисленных факторов. Если на случайную величину X действуют факторы Z1,Z2,…,V1,V2,..., а на Y действуют Z0,Z1, V1, V3,…, то наличие двух общих факторов Z2 и V1 позволяет говорить об определенной зависимости (регрессии) между X и Y.

Различают следующие виды регрессий:

  1. Регрессия относительно числа переменных:
  • простая регрессия - регрессия между двумя переменными;
  • множественная регрессия между зависимой переменной y и несколькими объясняющими переменными x1,x2,…,xm. В общем случае множественная регрессия (модель) имеет вид: 

y=a0+a1∙x1+a2∙x2+…+am∙xm,

где y - функция регрессии;

x1,x2,…,xm - независимые переменные;

a1, a2,…,am - коэффициенты регрессии;

a0 - свободный член уравнения;

m - число факторов, включенных в модель.

  1. Регрессия относительно формы зависимостей:
  • линейная регрессия - выражаемая линейной функцией;
  • нелинейная регрессия - выражаемая нелинейной функцией.
  1. В зависимости от характера регрессии различают:
  • положительную регрессию. Она имеет место, если с увеличением (уменьшением) объясняющей переменной значения зависимой переменной также соответственно увеличиваются (уменьшаются);
  • отрицательную регрессию. В этом случае с увеличением или уменьшением объясняющей переменной зависимая переменная уменьшается или увеличивается.
  1. Относительно типа явлений различают:
  • непосредственную регрессию - когда зависимая и объясняющая переменные непосредственно связаны друг с другом;
  • ложную регрессию. Она возникает при формальном подходе к исследуемым явлениям без уяснения того, какие причины обусловливают данную связь.

Регрессия тесно связана с корреляцией, однако, если в корреляционном анализе оценивается сила связи, то в регрессионном - форма связи.

Задачами регрессионного анализа являются:

  • установление формы зависимости (линейная, нелинейная, положительная, отрицательная);
  • определение функции регрессии;
  • определение влияния на функцию регрессии отдельных факторов;
  • решение задач экстраполяции и интерполяции (определение значений функций в неисследованных участках, например, - при решении задач прогнозирования).

Рассмотрим простейший вариант регрессии - линейной регрессии.

Линейная регрессия. Пусть задана система случайных величин X и Y и они зависимы. Представим одну из случайных величин Y как линейную функцию другой случайной величины X:

Y=y*(x) =α+β∙x, (3.1),

где α,β- параметры регрессии, которые подлежат определению. В общем случае эти параметры могут быть определены различными способами, например, методом наименьших квадратов (МНК).

Функцию g(x) называют наилучшим приближением, если математическое ожидание квадрата разности M[Y-y*(x)]2 принимает наименьшее возможное значение. Для отыскания такой функции (называемой средней квадратической регрессией Y на X"), помимо инструментария МНК, необходим двумерный массив данных - с координатами точек, полученным в ходе наблюдений: (x1,y1),(x2,y2),…,(xn,yn). Тогда поставленная задача сводится к задаче оптимальной аппроксимации "облака" точек кривой (3.1).

Данная ситуация представлена на рис. 3.1.

Рис. 3.1. Схема отыскания линейной регрессии

Опустив достаточно громоздкие выкладки, укажем окончательные выражения для расчета коэффициентов α и β уравнения (3.1):

n n n n n n

α= (∑yi ∙∑xi2 - ∑xi ∙∑xi ∙ yi) / [n ∙∑xi2 - (∑xi)2],

i=1 i=1 i=1 i=1 i=1 i=

n n n n n

β= (n ∙∑xi∙ yi - ∑xi ∙∑yi) / [∑xi2- (∑xi)2].

i=1 i=1 i=1 i=1 i=1

Разработка модели и исследование с ее помощью процессов функционирования систем и процессов в общем случае должны выполняться в следующей последовательности:

  • предварительное исследование сути проблемы;
  • формирование перечня факторов и их логический анализ;
  • планирование и организация наблюдений с целью сбора статистических исходных данных;
  • первичная обработка статистических данных;
  • определение вида (спецификация) функции регрессии;
  • оценка функции регрессии;
  • отбор главных факторов;
  • проверка адекватности регрессионной модели;
  • смысловая интерпретация полученной модели;
  • решение конкретных прикладных задач с помощью модели (например, прогнозирование).

Предварительное исследование сути проблемы. Целью этого этапа является вербальное (словесное) описание сути проблемы. В соответствии с целью работы по располагаемым материалам устанавливаются: компоненты процессов, подсистемы систем, их общие взаимосвязи, механизмы функционирования систем, объекты и периоды исследования. Изучается опыт решения аналогичных задач, формулируются предварительные гипотезы о зависимости тех или иных переменных (критериев, показателей, параметров).

Формирование перечня факторов и их логический анализ. Целью этого этапа является предварительное определение разумного числа исследуемых переменных и их классификация на зависимые и объясняющие (функции и аргументы).

Сбор исходных данных и их первичная обработка. Целью этого этапа является формирование достаточных (по объему и номенклатуре) исходных данных. Статистическая обработка сводится, в основном, к исключению из данных статистических "выбросов" и статистическое сглаживание данных.

Исходная информация может быть собрана в следующих видах:

  • динамические (временные) ряды;
  • пространственная информация (данные о нескольких объектах в одинаковые моменты времени);
  • временная информация (данные об одном объекте в разные моменты времени);
  • различные варианты комбинации информации.

Объем выборок зависит от числа факторов, включаемых в модель. Для получения статистически значимой модели потребный объем выборки nmin определяется по формуле: 

nmin≥ (5…8)∙(m+n),

где: m - число факторов, включаемых в модель;

n - число свободных членов в уравнении модели.

Спецификация функции регрессии. Целью этого этапа является конкретное формулирование гипотезы о форме регрессионной связи (линейная, нелинейная, прямая, обратная, простая или множественная).

Оценка функции регрессии. Целью этого этапа является определение числовых значений параметров (коэффициентов) регрессии, показателей, характеризующих "качество" построенной регрессионной модели.

Отбор главных факторов. Целью этого этапа является совершенствование регрессионной модели в направлении уменьшения числа факторов. Большое число факторов делает модель громоздкой, неудобной для применения, затрудняет исследование влияния отдельных факторов. С другой стороны, - слишком малое число факторов может привести к ошибкам (к недопустимому "загрублению") результатов моделирования. В этой связи очевидна необходимость включения в окончательный вариант регрессионной модели лишь рационального набора факторов. Часто эту задачу решают с помощью различных вариантов факторного анализа (например, методом главных компонент МГК).

Информация о работе Регрессионные модели