Автор работы: Пользователь скрыл имя, 16 Сентября 2014 в 10:56, контрольная работа
Термину регрессионная модель, используемому в регрессионном анализе, можно сопоставить синонимы: «теория», «гипотеза». Эти термины пришли из статистики, в частности из раздела «проверка статистических гипотез». Регрессионная модель есть прежде всего гипотеза, которая должна быть подвергнута статистической проверке, после чего она принимается или отвергается.
Регрессионная модель — это параметрическое семейство функций, задающее отображение
где — пространтсво параметров, — пространство свободных переменных, — пространство зависимых переменных.
Термину регрессионная модель, используемому в регрессионном анализе, можно сопоставить синонимы: «теория», «гипотеза». Эти термины пришли из статистики, в частности из раздела «проверка статистических гипотез». Регрессионная модель есть прежде всего гипотеза, которая должна быть подвергнута статистической проверке, после чего она принимается или отвергается.
Регрессионная модель — это параметрическое семейство функций, задающее отображение
где — пространтсво параметров, — пространство свободных переменных, — пространство зависимых переменных.
Так как регрессионный анализ предполагает поиск зависимости матожидания случайной величины от свободных переменных , то в её состав входит аддитивная случайная величина :
Предположение о характере распределения случайной величины называются гипотезой порождения данных. Эта гипотеза играет центральную роль в выборе критерия оценки качества модели и, как следствие, в способе настройки параметров модели.
Модель является настроенной (обученной) когда зафиксированы её параметры, то есть модель задаёт отображение
ƒ:X→Y
для фиксированного значения .
Различают математическую модель и регрессионную модель. Математическая модель предполагает участие аналитика в конструировании функции, которая описывает некоторую известную закономерность. Математическая модель является интерпретируемой — объясняемой в рамках исследуемой закономерности. При построении математической модели сначала создаётся параметрическое семейство функций, затем с помощью измеряемых данных выполняется идентификация модели — нахождение её параметров. Известная функциональная зависимость объясняющей переменной и переменной отклика — основное отличие математического моделирования от регрессионного анализа. Недостаток математического моделирования состоит в том, что измеряемые данные используются для верификации, но не для построения модели, вследствие чего можно получить неадекватную модель. Также затруднительно получить модель сложного явления, в котором взаимосвязано большое число различных факторов.
Регрессионная модель объединяет широкий класс универсальных функций, которые описывают некоторую закономерность. При этом для построения модели в основном используются измеряемые данные, а не знание свойств исследуемой закономерности. Такая модель часто неинтерпретируема, но более точна. Это объясняется либо большим числом моделей-претендентов, которые используются для построения оптимальной модели, либо большой сложностью модели. Нахождение параметров регрессионной модели называется обучением модели.
Недостатки регрессионного анализа: модели, имеющие слишком малую сложность, могут оказаться неточными, а модели, имеющие избыточную сложность, могут оказаться переобученными.
Примеры регрессионных моделей: линейные функции, алгебраические полиномы, ряды Чебышёва, нейронные сети без обратной связи, например, однослойный персептрон Розенблатта, радиальные базисные функции и прочее.
И регрессионная, и математическая модель, как правило, задают непрерывное отображение. Требование непрерывности обусловлено классом решаемых задач: чаще всего это описание физических, химических и других явлений, где требование непрерывности выставляется естественным образом.
Иногда на отображение накладываться ограничения монотонности, гладкости, измеримости, и некоторые другие. Теоретически, никто не запрещает работать с функциями произвольного вида, и допускать в моделях существование не только точек разрыва, но и задавать конечное, неупорядоченное множество значений свободной переменной, то есть, превращать задачи регрессии в задачи классификации.
При решении задач регрессионного анализа встают следующие вопросы.
Регрессионные модели
Моделирование процессов
Для исследования вида и формы зависимостей вида Y(X) широко применяется регрессионный анализ, который является методическим инструментарием при решении разнообразных задач управления (прогнозирования, планирования, анализа результатов и т.д.). В большинстве случаев функция Y или аргумент X - случайные величины, подверженные действию многочисленных факторов. Если на случайную величину X действуют факторы Z1,Z2,…,V1,V2,..., а на Y действуют Z0,Z1, V1, V3,…, то наличие двух общих факторов Z2 и V1 позволяет говорить об определенной зависимости (регрессии) между X и Y.
Различают следующие виды регрессий:
y=a0+a1∙x1+a2∙x2+…+am∙xm,
где y - функция регрессии;
x1,x2,…,xm - независимые переменные;
a1, a2,…,am - коэффициенты регрессии;
a0 - свободный член уравнения;
m - число факторов, включенных в модель.
Регрессия тесно связана с корреляцией, однако, если в корреляционном анализе оценивается сила связи, то в регрессионном - форма связи.
Задачами регрессионного анализа являются:
Рассмотрим простейший вариант регрессии - линейной регрессии.
Линейная регрессия. Пусть задана система случайных величин X и Y и они зависимы. Представим одну из случайных величин Y как линейную функцию другой случайной величины X:
Y=y*(x) =α+β∙x, (3.1),
где α,β- параметры регрессии, которые подлежат определению. В общем случае эти параметры могут быть определены различными способами, например, методом наименьших квадратов (МНК).
Функцию g(x) называют наилучшим приближением, если математическое ожидание квадрата разности M[Y-y*(x)]2 принимает наименьшее возможное значение. Для отыскания такой функции (называемой средней квадратической регрессией Y на X"), помимо инструментария МНК, необходим двумерный массив данных - с координатами точек, полученным в ходе наблюдений: (x1,y1),(x2,y2),…,(xn,yn). Тогда поставленная задача сводится к задаче оптимальной аппроксимации "облака" точек кривой (3.1).
Данная ситуация представлена на рис. 3.1.
Рис. 3.1. Схема отыскания линейной регрессии
Опустив достаточно громоздкие выкладки, укажем окончательные выражения для расчета коэффициентов α и β уравнения (3.1):
n n n n n n
α= (∑yi ∙∑xi2 - ∑xi ∙∑xi ∙ yi) / [n ∙∑xi2 - (∑xi)2],
i=1 i=1 i=1 i=1 i=1 i=
n n n n n
β= (n ∙∑xi∙ yi - ∑xi ∙∑yi) / [∑xi2- (∑xi)2].
i=1 i=1 i=1 i=1 i=1
Разработка модели и исследование с ее помощью процессов функционирования систем и процессов в общем случае должны выполняться в следующей последовательности:
Предварительное исследование сути проблемы. Целью этого этапа является вербальное (словесное) описание сути проблемы. В соответствии с целью работы по располагаемым материалам устанавливаются: компоненты процессов, подсистемы систем, их общие взаимосвязи, механизмы функционирования систем, объекты и периоды исследования. Изучается опыт решения аналогичных задач, формулируются предварительные гипотезы о зависимости тех или иных переменных (критериев, показателей, параметров).
Формирование перечня факторов и их логический анализ. Целью этого этапа является предварительное определение разумного числа исследуемых переменных и их классификация на зависимые и объясняющие (функции и аргументы).
Сбор исходных данных и их первичная обработка. Целью этого этапа является формирование достаточных (по объему и номенклатуре) исходных данных. Статистическая обработка сводится, в основном, к исключению из данных статистических "выбросов" и статистическое сглаживание данных.
Исходная информация может быть собрана в следующих видах:
Объем выборок зависит от числа факторов, включаемых в модель. Для получения статистически значимой модели потребный объем выборки nmin определяется по формуле:
nmin≥ (5…8)∙(m+n),
где: m - число факторов, включаемых в модель;
n - число свободных членов в уравнении модели.
Спецификация функции регрессии. Целью этого этапа является конкретное формулирование гипотезы о форме регрессионной связи (линейная, нелинейная, прямая, обратная, простая или множественная).
Оценка функции регрессии. Целью этого этапа является определение числовых значений параметров (коэффициентов) регрессии, показателей, характеризующих "качество" построенной регрессионной модели.
Отбор главных факторов. Целью этого этапа является совершенствование регрессионной модели в направлении уменьшения числа факторов. Большое число факторов делает модель громоздкой, неудобной для применения, затрудняет исследование влияния отдельных факторов. С другой стороны, - слишком малое число факторов может привести к ошибкам (к недопустимому "загрублению") результатов моделирования. В этой связи очевидна необходимость включения в окончательный вариант регрессионной модели лишь рационального набора факторов. Часто эту задачу решают с помощью различных вариантов факторного анализа (например, методом главных компонент МГК).