21.09.2019

Как построить уравнение множественной регрессии. Уравнение линейной множественной регрессии. Оценка параметров множественной регрессии


Экономические явления, как правило, определяются большим числом одновременно и совокупно действующих факторов. В связи с этим часто возникает задача исследования зависимости переменной у от нескольких объясняющих переменных (х 1, х 2 ,…, х k) которая может быть решена с помощью множественного корреляционно-регрессионного анализа.

При исследовании зависимости методами множественной регрессии задача формируется так же, как и при использовании парной регрессии, т.е. требуется определить аналитическое выражение формы связи между результативным признаком у и факторными признаками х, х 2 , ..., х k , найти функцию , где k – число факторных признаков

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и целом ряде других вопросов эконометрики. В настоящее время множественная регрессия – один из наиболее распространенных методов в эконометрике. Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Из-за особенностей метода наименьших квадратов во множественной регрессии, как и в парной, применяются только линейные уравнения и уравнения, приводимые к линейному виду путем преобразования переменных. Чаще всего используется линейное уравнение, которое можно записать следующим образом:

a 0 , a 1, …, a k – параметры модели (коэффициенты регрессии);

ε j – случайная величина (величина остатка).

Коэффициент регрессии а j показывает, на какую величину в среднем изменится результативный признак у, если переменную х j увеличить на единицу измерения при фиксированном (постоянном) значении других факторов, входящих в уравнение регрессии. Параметры при x называются коэффициентами «чистой» регрессии .

Пример.

Предположим, что зависимость расходов на продукты питания по совокупности семей характеризуется следующим уравнением:

y – расходы семьи за месяц на продукты питания, тыс. руб.;

x 1 – месячный доход на одного члена семьи, тыс. руб.;

x 2 – размер семьи, человек.

Анализ данного уравнения позволяет сделать выводы – с ростом дохода на одного члена семьи на 1 тыс. руб. расходы на питание возрастут в среднем на 350 руб. при том же среднем размере семьи. Иными словами, 35% дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на питание на 730 руб. Первый параметр не подлежит экономической интерпретации.

Оценивание достоверности каждого из параметров модели осуществляется при помощи t-критерия Стьюдента. Для любого из параметров модели а j значение t-критерия рассчитывается по формуле , где


S ε – стандартное (среднее квадратическое) отклонение уравнения регрессии)

определяется по формуле

Коэффициент регрессии а j считается достаточно надежным, если расчетное значение t- критерия с (n - k - 1 ) степенями свободы превышает табличное, т.е. t расч > t а jn - k -1 . Если надеж­ность коэффициента регрессии не подтверждается, то следует; вывод о несущественности в модели факторного j признака и необходимости его устранения из модели или замены на другой факторный признак.

Важную роль при оценке влияния факторов играют коэффициенты регрессионной модели. Однако непосредственно с их помощью нельзя сопоставлять факторные признаки по степени их влияния на зависимую переменную из-за различия единиц измерения и разной степени колеблемости. Для устранения таких различий применяются частные коэффициенты эластичности Э j и бета-коэффициенты β j .

Формула для расчета коэффициента эластичности

где

a j – коэффициент регрессии фактора j ,

Среднее значение результативного признака

Среднее значение признака j

Коэффициент эластичности показывает, на сколько процентов изменяется зависимая переменная у при изменении фактора j на 1 %.

Формула определения бета - коэффициента.

, где

S xj – среднее квадратическое отклонение фактора j ;

S y - среднее квадратическое отклонение фактора y.

β - коэффициент показывает, на какую часть величины среднего квадратического отклонения S y из­менится зависимая переменная у с изменением со­ответствующей независимой переменной х j на величину своего среднего квадратического отклонения при фиксированном значении остальных неза­висимых переменных.

Долю влияния определенного фактора в суммарном влиянии всех факторов можно оценить по величине дельта-коэффициентов Δ j .

Указанные коэффициенты позволяют проранжировать факторы по степени влияния факторов на зависимую переменную.

Формула определения дельта - коэффициента.

r yj – коэффициент парной корреляции между фактором j и зависимой переменной;

R 2 – множественный коэффициент детерминации.

Коэффициент множественной детерминации используют для оценки качества множественных регрессионных моделей.

Формула определения коэффициента множественной детерминации.

Коэффициент детерминации показывает долю вариации результативного признака, находящегося под воздействием факторных признаков, т.е. опре­деляет, какая доля вариации признака у учтена в модели и обусловлена влиянием на него факторов, включенных в модель. Чем ближе R 2 к единице, тем выше качество модели

При добавлении независимых переменных значение R 2 уве­личивается, поэтому коэффициент R 2 должен быть скорректи­рован с учетом числа независимых переменных по формуле

Для проверки значимости модели регрессии используется F-критерий Фишера. Он определяется по формуле

Если расчетное значение критерия с γ 1 , = k и γ 2 = (n - k- 1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

В качестве меры точностимодели применяют стандартную ошибку, которая представляет собой отношение суммы квадратов уровней остаточной компоненты к величине (n - k -1):

Классический подход к оцениванию параметров линейной модели основан на методе наименьших квадратов (МНК) . Система нормальных уравнений имеет вид:

Решение системы может быть осуществлено по одному из известных способов: Метод Гаусса, метод Крамера и т.д.

Пример15.

По четырем предприятиям региона (таблица 41) изучается зависимость выработки продукции на одного работника y (тыс. руб.) от ввода в действие новых основных фондов (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих (%). Требуется написать уравнение множественной регрессии.

Таблица 41 – Зависимость выработки продукции на одного работника

Задачей множественной линейной регрессии является построение линейной модели связи между набором непрерывных предикторов и непрерывной зависимой переменной. Часто используется следующее регрессионное уравнение:

Здесь а i - регрессионные коэффициенты, b 0 - свободный член(если он используется), е - член, содержащий ошибку - по поводу него делаются различные предположения, которые, однако, чаще сводятся к нормальности распределения с нулевым вектором мат. ожидания и корреляционной матрицей .

Такой линейной моделью хорошо описываются многие задачи в различных предметных областях, например, экономике, промышленности, медицине. Это происходит потому, что некоторые задачи линейны по своей природе.

Приведем простой пример. Пусть требуется предсказать стоимость прокладки дороги по известным ее параметрам. При этом у нас есть данные о уже проложенных дорогах с указанием протяженности, глубины обсыпки, количества рабочего материала, числе рабочих и так далее.

Ясно, что стоимость дороги в итоге станет равной сумме стоимостей всех этих факторов в отдельности. Потребуется некоторое количество, например, щебня, с известной стоимостью за тонну, некоторое количество асфальта также с известной стоимостью.

Возможно, для прокладки придется вырубать лес, что также приведет к дополнительным затратам. Все это вместе даст стоимость создания дороги.

При этом в модель войдет свободный член, который, например, будет отвечать за организационные расходы (которые примерно одинаковы для всех строительно-монтажных работ данного уровня) или налоговые отчисления.

Ошибка будет включать в себя факторы, которые мы не учли при построении модели (например, погоду при строительстве - ее вообще учесть невозможно).

Пример: множественный регрессионный анализ

Для этого примера будут анализироваться несколько возможных корреляций уровня бедности и степень, которая предсказывает процент семей, находящихся за чертой бедности. Следовательно мы будем считать переменную характерезующую процент семей, находящихся за чертой бедности, - зависимой переменной, а остальные переменные непрерывными предикторами.

Коэффициенты регрессии

Чтобы узнать, какая из независимых переменных делает больший вклад в предсказание уровня бедности, изучим стандартизованные коэффициенты (или Бета) регрессии.

Рис. 1. Оценки параметров коэффициентов регрессии.

Коэффициенты Бета это коэффициенты, которые вы бы получили, если бы привели все переменные к среднему 0 и стандартному отклонению 1. Следовательно величина этих Бета коэффициентов позволяет сравнивать относительный вклад каждой независимой переменной в зависимую переменную. Как видно из Таблицы, показанной выше, переменные изменения населения с 1960 года (POP_ CHING), процент населения, проживающего в деревне (PT_RURAL) и число людей, занятых в сельском хозяйстве (N_Empld) являются самыми главными предикторами уровня бедности, т.к. только они статистически значимы (их 95% доверительный интервал не включает в себя 0). Коэффициент регрессии изменения населения с 1960 года (Pop_Chng) отрицательный, следовательно, чем меньше возрастает численность населения, тем больше семей, которые живут за чертой бедности в соответствующем округе. Коэффициент регрессии для населения (%), проживающего в деревне (Pt_Rural) положительный, т.е., чем больше процент сельских жителей, тем больше уровень бедности.

Значимость эффектов предиктора

Просмотрим Таблицу с критериями значимости.

Рис. 2. Одновременные результаты для каждой заданной переменной.

Как показывает эта Таблица, статистически значимы только эффекты 2 переменных: изменение населения с 1960 года (Pop_Chng) и процент населения, проживающего в деревне (Pt_Rural), p < .05.

Анализ остатков. После подгонки уравнения регрессии, почти всегда нужно проверять предсказанные значения и остатки. Например, большие выбросы могут сильно исказить результаты и привести к ошибочным выводам.

Построчный график выбросов

Обычно необходимо проверять исходные или стандартизованные остатки на большие выбросы.

Рис. 3. Номера наблюдений и остатки.

Шкала вертикальной оси этого графика отложена по величине сигма, т.е., стандартного отклонения остатков. Если одно или несколько наблюдений не попадают в интервал ± 3 умноженное на сигма, то, возможно, стоит исключить эти наблюдения (это можно легко сделать через условия выбора наблюдений) и еще раз запустить анализ, чтобы убедится, что результаты не изменяются этими выбросами.

Расстояния Махаланобиса

Большинство статистических учебников уделяют много времени выбросам и остаткам относительно зависимой переменной. Тем не менее роль выбросов в предикторах часто остается не выявленной. На стороне переменной предиктора имеется список переменных, которые участвуют с различными весами (коэффициенты регрессии) в предсказании зависимой переменной. Можно считать независимые переменные многомерным пространством, в котором можно отложить любое наблюдение. Например, если у вас есть две независимых переменных с равными коэффициентами регрессии, то можно было бы построить диаграмму рассеяния этих двух переменных и поместить каждое наблюдение на этот график. Потом можно было отметить на этом графике среднее значение и вычислить расстояния от каждого наблюдения до этого среднего (так называемый центр тяжести) в двумерном пространстве. В этом и заключается основная идея вычисления расстояния Махаланобиса . Теперь посмотрим на гистограмму переменной изменения населения с 1960 года.

Рис. 4. Гистограмма распределения расстояний Махаланобиса.

Из графика следует, что есть один выброс на расстояниях Махаланобиса.

Рис. 5. Наблюдаемые, предсказанные и значения остатков.

Обратите внимание на то, что округ Shelby (в первой строке) выделяется на фоне остальных округов. Если посмотреть на исходные данные, то вы обнаружите, что в действительности округ Shelby имеет самое большое число людей, занятых в сельском хозяйстве (переменная N_Empld). Возможно, было бы разумным выразить в процентах, а не в абсолютных числах, и в этом случае расстояние Махаланобиса округа Shelby, вероятно, не будет таким большим на фоне других округов. Очевидно, что округ Shelby является выбросом .

Удаленные остатки

Другой очень важной статистикой, которая позволяет оценить серьезность проблемы выбросов, являются удаленные остатки . Это стандартизованные остатки для соответствующих наблюдений, которые получаются при удалении этого наблюдения из анализа. Помните, что процедура множественной регрессии подгоняет поверхность регрессии таким образом, чтобы показать взаимосвязь между зависимой и переменной и предиктором. Если одно наблюдение является выбросом (как округ Shelby), то существует тенденция к "оттягиванию" поверхности регрессии к этому выбросу. В результате, если соответствующее наблюдение удалить, будет получена другая поверхность (и Бета коэффициенты). Следовательно, если удаленные остатки очень сильно отличаются от стандартизованных остатков, то у вас будет повод считать, что регрессионный анализа серьезно искажен соответствующим наблюдением. В этом примере удаленные остатки для округа Shelby показывают, что это выброс, который серьезно искажает анализ. На диаграмме рассеяния явно виден выброс.

Рис. 6. Исходные остатки и Удаленные остатки переменной, означающей процент семей, проживающих ниже прожиточного минимума.

Большинство из них имеет более или менее ясные интерпретации, тем не менее обратимся к нормальным вероятностным графикам.

Как уже было упомянуто, множественная регрессия предполагает, что существует линейная взаимосвязь между переменными в уравнении и нормальное распределение остатков. Если эти предположения нарушены, то вывод может оказаться неточным. Нормальный вероятностный график остатков укажет вам, имеются ли серьезные нарушения этих предположений или нет.

Рис. 7. Нормальный вероятностный график; Исходные остатки.

Этот график был построен следующим образом. Вначале стандартизованные остатки ранжируюся по порядку. По этим рангам можно вычислить z значения (т.е. стандартные значения нормального распределения) на основе предположения, что данные подчиняются нормальному распределению. Эти z значения откладываются по оси y на графике.

Если наблюдаемые остатки (откладываемые по оси x) нормально распределены, то все значения легли бы на прямую линию на графике. На нашем графике все точки лежат очень близко относительно кривой. Если остатки не являются нормально распределенными, то они отклоняются от этой линии. Выбросы также становятся заметными на этом графике.

Если имеется потеря согласия и кажется, что данные образуют явную кривую (например, в форме буквы S) относительно линии, то зависимую переменную можно преобразовать некоторым способом (например, логарифмическое преобразование для "уменьшения" хвоста распределения и т.д.). Обсуждение этого метода находится за пределами этого примера (Neter, Wasserman, и Kutner, 1985, pp. 134-141, представлено обсуждение преобразований, убирающих ненормальность и нелинейность данных). Однако исследователи очень часто просто проводят анализ напрямую без проверки соответствующих предположений, что ведет к ошибочным выводам.

2 Множественная линейная регрессия

2.1 Определение параметров уравнения регрессии

На любой экономический показатель чаще всего оказывает влияние не один, а несколько факторов. В этом случае вместо парной регрессии рассматривается множественная регрессия

Задача оценки статистической взаимосвязи переменных и
формулируется аналогично случаю парной регрессии. Уравнение множественной регрессии может быть представлено в виде:

, (2.2)

где
– вектор независимых (объясняющих) переменных; – вектор параметров (подлежащих определению); – случайная ошибка (отклонение); – зависимая (объясняемая) переменная.

Рассмотрим самую употребляемую и наиболее простую из моделей множественной регрессии – модель множественной линейной регрессии.

Теоретическое линейное уравнение регрессии имеет вид:

или для индивидуальных наблюдений
:

Здесь
– вектор размерности
неизвестных параметров.
называется -тым теоретическим коэффициентом регрессии (частичным коэффициентом регрессии). Он характеризует чувствительность величины к изменению величины , т.е. отражает влияние на условное математическое ожидание
зависимой переменной объясняющей переменной при условии, что все другие объясняющие переменные модели остаются постоянными. – свободный член, определяющий в случае, когда все объясняющие переменные равны нулю.

После выбора линейной функции в качестве модели зависимости необходимо оценить параметры регрессии. Пусть имеется наблюдений вектора объясняющих переменных и зависимой переменной :

Для того чтобы однозначно можно было решить задачу нахождения параметров
(т.е. найти некоторый наилучший вектор ), должно выполняться неравенство
. Если это неравенство не будет выполняться, то существует бесконечно много различных векторов параметров, при которых линейная формула связи между
и будет абсолютно точно соответствовать имеющимся наблюдениям.

Например, для однозначного определения оценок параметров уравнения регрессии достаточно иметь выборку из трех наблюдений . В этом случае найденные значения параметров
определяют такую плоскость в трехмерном пространстве, которая пройдет именно через три точки. С другой стороны, добавление в выборку к имеющимся трем наблюдениям еще одного приведет к тому, что четвертая точка
практически наверняка будет лежать вне построенной плоскости, что потребует определенной переоценки параметров.

Число
называется числом степеней свободы . Если число степеней свободы невелико, то статистическая надежность оцениваемой формулы невысока. Например, вероятность верного вывода (получения более точных оценок) по трем наблюдениям существенно ниже, чем по тридцати. Считается, что при оценивании множественной линейной регрессии для обеспечения статистической надежности требуется, чтобы число наблюдений по крайней мере в три раза превосходило число оцениваемых параметров.

Самым распространенным методом оценки параметров уравнения множественной регрессии является метод наименьших квадратов (МНК).

Предпосылки МНК :

Как и в случае парной регрессии, истинные значения параметров по выборке получить невозможно. В этом случае вместо теоретического уравнения регрессии оценивается эмпирическое уравнение регрессии:

Здесь
– оценки теоретических значений коэффициентов регрессии (эмпирические коэффициенты регрессии); – оценка отклонения . Для индивидуальных наблюдений имеем:

При выполнении предпосылок МНК относительно ошибок оценки параметров множественной линейной регрессии по МНК являются несмещенными, эффективными и состоятельными.

На основании (2.6): . (2.7)

Тогда по методу наименьших квадратов для нахождения оценок минимизируется следующая функция:

. (2.8)

Необходимым условием минимизации функции является равенство нулю всех ее частных производных по , т.е.:

(2.9)

Приравнивая их к нулю, получаем систему
линейных уравнений с неизвестными. Такая система обычно имеет единственное решение и называется системой нормальных уравнений. Ее решение в явном виде наиболее наглядно представимо в векторно-матричной форме.

2.2 Расчет коэффициентов множественной линейной регрессии

Данные наблюдений и соответствующие коэффициенты в матричной форме выглядят следующим образом:




.

Здесь
-мерный вектор-столбец наблюдений зависимой переменной ; – матрица размерности
, в которой -тая строка
представляет наблюдение вектора значений независимых переменных ; единица соответствует переменной при свободном члене ; – вектор-столбец размерности параметров уравнения регрессии; – вектор-столбец размерности отклонений выборочных (реальных) значений зависимой переменной от значений , получаемых по уравнению регрессии

Функция
в матричной форме представима как произведение вектор-строки
на вектор-столбец . Вектор-столбец может быть в свою очередь представлен в следующем виде:

. (2.11)

Здесь
– векторы и матрицы, транспонированные к
соответственно. При выводе формулы использовались следующие известные соотношения линейной алгебры:

Необходимым условием экстремума функции является равенство нулю ее частных производных
по всем параметрам
. Вектор-столбец частных производных в матричном виде выглядит следующим образом:

. (2.12)

Рассмотрим более подробно нахождение . Очевидно, что

от не зависит, следовательно,
.

Обозначим вектор-столбец
размерности через . Тогда
, где – соответствующий элемент вектора . Поэтому
.

Обозначим матрицу
размерности через . Тогда



.

Следовательно, частная производная
.

В результате имеем
.

Следовательно, формула (2.12) справедлива. Приравняв к нулю, получаем:

(2.13)

(2.14)

Здесь
– матрица, обратная к .

Полученные общие соотношения справедливы для уравнений регрессии с произвольным количеством
объясняющих переменных. Проанализируем полученные результаты для случаев:


,
,
, .

Из (2.11) следует: , т.е.

.

Из (2.14) следует

(2.15)


(2.16)

Решение данной системы имеет вид:

(2.17)

2.3 Анализ качества эмпирического уравнения множественной линейной регрессии

Построение эмпирического уравнения регрессии является начальным этапом эконометрического анализа. Первое же построенное по выборке уравнение регрессии очень редко является удовлетворительным по тем или иным характеристикам. Поэтому следующей важнейшей оценкой является проверка качества уравнения регрессии. В эконометрике принята устоявшаяся схема такой проверки, которая проводится по следующим направлениям:

    проверка статистической значимости коэффициентов уравнения регрессии;

    проверка общего качества уравнения регрессии;

    проверка свойств данных, выполнимость которых предполагалась при оценивании уравнения (проверка выполнимости предпосылок МНК).

Прежде чем проводить анализ качества уравнения регрессии, необходимо определить дисперсии и стандартные ошибки коэффициентов, а также интервальные оценки коэффициентов.

Выборочные дисперсии эмпирических коэффициентов регрессии можно определить следующим образом:

. (2.18)

Здесь – -тый диагональный элемент матрицы
.

При этом:

, (2.19)

где – количество объясняющих переменных модели. Иногда в формуле (2.19) знаменатель представляют в виде
, подразумевая под число параметров модели (подлежащих определению коэффициентов регрессии).

В частности, для уравнения
с двумя объясняющими переменными используются следующие формулы:

,

,

,
,
. (2.20)

Здесь – выборочный коэффициент корреляции между объясняющими переменными и
; – стандартная ошибка коэффициента регрессии; – стандартная ошибка регрессии (несмещенная оценка).

По аналогии с парной регрессией после определения точечных оценок коэффициентов (
) теоретического уравнения регрессии могут быть рассчитаны интервальные оценки указанных коэффициентов. Доверительный интервал, накрывающий с надежностью
неизвестное значение параметра , определяется как

(2.21)

Проверка статистической значимости коэффициентов уравнения регрессии.

Как и в случае парной регрессии, статистическая значимость коэффициентов множественной линейной регрессии с объясняющими переменными проверяется на основе -статистики:

, (2.22)

имеющей в данном случае распределение Стьюдента с числом степеней свободы . При требуемом уровне значимости наблюдаемое значение -статистики сравнивается с критической точной
распределения Стьюдента.

В случае, если
, то статистическая значимость соответствующего коэффициента регрессии подтверждается. Это означает, что фактор линейно связан с зависимой переменной . Если же установлен факт незначимости коэффициента , то рекомендуется исключить из уравнения переменную . Это не приведет к существенной потере качества модели, но сделает ее более конкретной.

При оценке значимости коэффициентов линейной регрессии на начальном этапе также можно использовать «грубое» правило, рассмотренное в главе 1.3, позволяющее не прибегать к таблицам.

Проверка общего качества уравнения регрессии

Для этой цели, как и в случае парной регрессии, используется коэффициент детерминации
:

(2.23)

Справедливо соотношение
. Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение .

Для множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение , так как каждая последующая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной. может принимать отрицательные значения., то критерия мультиколлинеарности может быть принято... пределах. 5. Проверка гипотез относительно коэффициентов уравнения регрессии (проверка значимости параметров множественного уравнения регрессии ). 1) t-статистика...

  • Аннотация дисциплины (12)

    Автореферат диссертации

    Информационная сеть Интернет. Раздел 14 . Корпоративные информационные сети. Раздел... множественной регрессии . Парная линейная регрессия . Множественная линейная регрессия . Проверка качества уравнения регрессии . Нелинейные модели регрессии и линеаризация...

  • Федеральное государственное бюджетное образовательное (44)

    Задача

    О значимости выборочного коэффициента корреляции. Проверка качества уравнения регрессии . Классическая регрессионная модель. Предпосылки... Статические оценки параметров распределения 3 6 14 ,15 4 3 3 ИЗ–6 14 Проверка статистических гипотез 3 6 16 2 1 ...

  • Суть регрессионного анализа : построение математической модели и определение ее статистической надежности.

    Вид множественной линейной модели регрессионного анализа: Y = b 0 + b 1 x i1 + ... + b j x ij + ... + b k x ik + e i где e i - случайные ошибки наблюдения, независимые между собой, имеют нулевую среднюю и дисперсию s .

    Назначение множественной регрессии : анализ связи между несколькими независимыми переменными и зависимой переменной.

    Экономический смысл параметров множественной регрессии
    Коэффициент множественной регрессии b j показывает, на какую величину в среднем изменится результативный признак Y , если переменную X j увеличить на единицу измерения, т. е. является нормативным коэффициентом.

    Матричная запись множественной линейной модели регрессионного анализа: Y = Xb + e где Y (n x 1) наблюдаемых значений результативного признака (y 1 , y 2 ,..., y n );
    X - матрица размерности [n x (k+1) ] наблюдаемых значений аргументов;
    b - вектор - столбец размерности [(k+1) x 1 ] неизвестных, подлежащих оценке параметров (коэффициентов регрессии) модели;
    e - случайный вектор - столбец размерности (n x 1) ошибок наблюдений (остатков).

    Задачи регрессионного анализа
    Основная задача регрессионного анализа заключается в нахождении по выборке объемом n оценки неизвестных коэффициентов регрессии b 0 , b 1 ,..., b k . Задачи регрессионного анализа состоят в том, чтобы по имеющимся статистическим данным для переменных X i и Y :

    • получить наилучшие оценки неизвестных параметров b 0 , b 1 ,..., b k ;
    • проверить статистические гипотезы о параметрах модели;
    • проверить, достаточно ли хорошо модель согласуется со статистическими данными (адекватность модели данным наблюдений).

    Построение моделей множественной регрессии состоит из следующих этапов:

    1. выбор формы связи (уравнения регрессии);
    2. определение параметров выбранного уравнения;
    3. анализ качества уравнения и поверка адекватности уравнения эмпирическим данным, совершенствование уравнения.
    • Множественная регрессия с одной переменной
    • Множественная регрессия с тремя переменными

    Инструкция . Укажите количество данных (количество строк), количество переменных x нажмите Далее.

    Количество факторов (x) 1 2 3 4 5 6 7 8 9 10 Количество строк
    .");">

    Пример решения нахождения модели множественной регрессии

    Множественная регрессия с двумя переменными

    Модель множественной регрессии вида Y = b 0 +b 1 X 1 + b 2 X 2 ;
    1) Найтинеизвестные b 0 , b 1 ,b 2 можно, решим систему трехлинейных уравнений с тремя неизвестными b 0 ,b 1 ,b 2:

    Для решения системы можете воспользоваться
    2) Или использовав формулы


    Для этого строим таблицу вида:

    Y x 1 x 2 (y-y ср) 2 (x 1 -x 1ср) 2 (x 2 -x 2ср) 2 (y-y ср)(x 1 -x 1ср) (y-y ср)(x 2 -x 2ср) (x 1 -x 1ср)(x 2 -x 2ср)

    Выборочные дисперсии эмпирических коэффициентов множественной регрессии можно определить следующим образом:

    Здесь z" jj - j-тый диагональный элемент матрицы Z -1 =(X T X) -1 .

    Приэтом:

    где m - количество объясняющихпеременных модели.
    В частности, для уравнения множественной регрессии Y = b 0 + b 1 X 1 + b 2 X 2 с двумя объясняющими переменными используются следующие формулы:


    Или

    или
    ,,.
    Здесьr 12 - выборочный коэффициент корреляции между объясняющимипеременными X 1 и X 2 ; Sb j - стандартная ошибкакоэффициента регрессии; S - стандартная ошибка множественной регрессии (несмещенная оценка).
    По аналогии с парной регрессией после определения точечных оценокb j коэффициентов β j (j=1,2,…,m) теоретического уравнения множественной регрессии могут быть рассчитаны интервальные оценки указанных коэффициентов.

    Доверительный интервал, накрывающий с надежностью (1-α ) неизвестное значение параметра β j, определяется как

    Множественная регрессия в Excel

    Чтобы найти параметры множественной регресии средствами Excel, используется функция ЛИНЕЙН(Y;X;0;1),
    где Y - массив для значений Y
    где X - массив для значений X (указывается как единый массив для всех значений Х i)

    Проверка статистической значимости коэффициентов уравнения множественной регрессии

    Как и в случае множественной регрессии, статистическая значимость коэффициентовмножественной регрессии с m объясняющими переменными проверяется на основе t-статистики:

    имеющей в данном случае распределение Стьюдента с числом степеней свободы v = n- m-1. При требуемом уровне значимости наблюдаемое значение t-статистики сравнивается с критической точной распределения Стьюдента.
    В случае, если , то статистическая значимость соответствующего коэффициента множественной регрессии подтверждается. Это означает, что фактор Xj линейно связан с зависимой переменной Y. Если же установлен факт незначимости коэффициента b j , то рекомендуется исключить из уравнения переменную Xj. Это не приведет к существенной потере качества модели, но сделает ее более конкретной.

    Для этой цели, как и в случае множественной регрессии, используется коэффициентдетерминации R 2:

    Справедливо соотношение 0<=R2<=1. Чем ближе этот коэффициент к единице, тем больше уравнение множественной регрессии объясняет поведение Y.
    Длямножественной регрессии коэффициент детерминации является неубывающей функциейчисла объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R 2 , так как каждая последующая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной.

    Соотношение может быть представлено вследующем виде:

    для m>1. С ростом значения m


    Показатели F и R2 равны или не равен нулю одновременно. Если F=0, то R 2 =0, следовательно, величина Y линейно не зависит от X1,X2,…,Xm..Расчетное значение F сравнивается с критическим Fкр. Fкр, исходя из требуемого уровня значимости α и чисел степеней свободы v1 = m и v2 = n - m - 1, определяется на основе распределения Фишера. Если F>Fкр, то R 2 статистически значим.

    Проверка выполнимости предпосылок МНК множественной регрессии. Статистика Дарбина-Уотсона для множественной регрессии

    Статистическая значимость коэффициентов множественной регрессии и близкое к единице значение коэффициента детерминации R 2 не гарантируют высокое качество уравнения множественной регрессии. Поэтому следующим этапом проверки качества уравнения множественной регрессии является проверка выполнимости предпосылок МНК. Причины и последствия невыполнимости этих предпосылок, методы корректировки регрессионных моделей будут рассмотрены в последующих главах. В данном параграфе рассмотрим популярную в регрессионном анализе статистику Дарбина-Уотсона.
    При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки: условия статистической независимости отклонений между собой.

    При этом проверяется некоррелированность соседних величин e i ,i=1,2,…n..
    Для анализа коррелированности отклонений используют статистику Дарбина-Уотсона:

    Критические значения d 1 и d 2 определяются на основе специальных таблиц для требуемого уровня значимости α , числа наблюдений n и количества объясняющих переменных m .

    Частные коэффициенты корреляции при множественной регрессии

    Частные коэффициенты (или индексы) корреляции, измеряющие влияние на у фактора х i при неизменном уровне других факторов определяются по стандартной формуле линейного коэффициента корреляции, т.е. последовательно беруться пары yx 1 ,yx 2 ,... , x 1 x 2 , x 1 x 3 и так далее и для каждой пары находится коэффициент корреляции
    Вычисления в MS Excel . Матрицу парных коэффициентов корреляции переменных можно рассчитать, используя инструмент анализа данных Корреляция. Для этого:
    1) Выполнить команду Сервис / Анализ данных / Корреляция .
    2) Указать диапозон данных;

    Проверка общего качества уравнения множественной регрессии

    Для этой цели, как и в случае множественной регрессии, используется коэффициентдетерминации R 2 :

    Справедливо соотношение 0 < =R 2 < = 1 . Чем ближе этот коэффициент к единице, тем больше уравнение множественной регрессии объясняет поведение Y .
    Для множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R 2 , так как каждая последующая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведениезависимой переменной.
    Иногда при расчете коэффициента детерминации для получения несмещенных оценок в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы, т.е. вводится так называемый скорректированный (исправленный) коэффициент детерминации:

    Соотношение может быть представлено в следующем виде:

    для m>1. С ростом значения mскорректированный коэффициент детерминации растет медленнее, чем обычный.Очевидно, что только при R 2 = 1. может принимать отрицательные значения.
    Доказано, что увеличивается при добавлении новой объясняющей переменной тогда и только тогда, когда t-статистика для этой переменной по модулю больше единицы. Поэтому добавление в модель новых объясняющих переменных осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.
    Рекомендуется после проверки общего качества уравнения регрессии провести анализ его статистической значимости. Для этого используется F-статистика:
    Показатели F и R 2 равны или не равен нулю одновременно. Если F=0 , то R 2 =0, следовательно, величина Y линейно не зависит от X 1 ,X 2 ,…,X m .Расчетное значение F сравнивается с критическим Fкр. Fкр , исходя из требуемого уровня значимости α и чисел степеней свободы v 1 = m и v 2 = n - m - 1 , определяется на основе распределения Фишера. Если F > Fкр , то R 2 статистически значим.

    Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Если же этим влиянием пренебречь нельзя, то в этом случае следует попытаться выявить влияние других факторов, введя их в модель, т.е. построить уравнение множественной регрессии

    где – зависимая переменная (результативный признак),– независимые, или объясняющие, переменные (признаки-факторы).

    Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и целом ряде других вопросов эконометрики. В настоящее время множественная регрессия – один из наиболее распространенных методов в эконометрике. Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

    2.1. Спецификация модели. Отбор факторов при построении уравнения множественной регрессии

    Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Он включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии.

    Включение в уравнение множественной регрессии того или иного набора факторов связано прежде всего с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям.

      Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность.

      Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

    Включение в модель факторов с высокой интеркорреляцией, может привести к нежелательным последствиям – система нормальных уравнений может оказаться плохо обусловленной и повлечь за собой неустойчивость и ненадежность оценок коэффициентов регрессии.

    Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми.

    Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором
    факторов, то для нее рассчитывается показатель детерминации
    , который фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии
    факторов. Влияние других, не учтенных в модели факторов, оценивается как
    с соответствующей остаточной дисперсией.

    При дополнительном включении в регрессию
    фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться:

    и
    .

    Если же этого не происходит и данные показатели практически не отличаются друг от друга, то включаемый в анализ фактор
    не улучшает модель и практически является лишним фактором.

    Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по критерию Стьюдента.

    Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости. Отбор факторов производится на основе качественного теоретико-экономического анализа. Однако теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов обычно осуществляется в две стадии: на первой подбираются факторы исходя из сущности проблемы; на второй – на основе матрицы показателей корреляции определяют статистики для параметров регрессии.

    Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если
    . Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

    Пусть, например, при изучении зависимости
    матрица парных коэффициентов корреляции оказалась следующей:

    Таблица 2.1

    Очевидно, что факторы идублируют друг друга. В анализ целесообразно включить фактор, а не, хотя корреляцияс результатомслабее, чем корреляция факторас
    , но зато значительно слабее межфакторная корреляция
    . Поэтому в данном случае в уравнение множественной регрессии включаются факторы,.

    По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга. Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой и нельзя оценить воздействие каждого фактора в отдельности.

    Включение в модель мультиколлинеарных факторов нежелательно в силу следующих последствий:

      Затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл.

      Оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

    Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами.

    Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы
    были бы равны нулю. Так, для уравнения, включающего три объясняющих переменных

    матрица коэффициентов корреляции между факторами имела бы определитель, равный единице:

    .

    Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен нулю:

    .

    Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И, наоборот, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.

    Существует ряд подходов преодоления сильной межфакторной корреляции. Самый простой путь устранения мультиколлинеарности состоит в исключении из модели одного или нескольких факторов. Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними.

    Одним из путей учета внутренней корреляции факторов является переход к совмещенным уравнениям регрессии, т.е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Так, если
    , то возможно построение следующего совмещенного уравнения:

    Рассматриваемое уравнение включает взаимодействие первого порядка (взаимодействие двух факторов). Возможно включение в модель и взаимодействий более высокого порядка, если будет доказана их статистическая значимость по
    -критерию Фишера, но, как правило, взаимодействия третьего и более высоких порядков оказываются статистически незначимыми.

    Отбор факторов, включаемых в регрессию, является одним из важнейших этапов практического использования методов регрессии. Подходы к отбору факторов на основе показателей корреляции могут быть разные. Они приводят построение уравнения множественной регрессии соответственно к разным методикам. В зависимости от того, какая методика построения уравнения регрессии принята, меняется алгоритм ее решения на ЭВМ.

    Наиболее широкое применение получили следующие методы построения уравнения множественной регрессии:

      Метод исключения – отсев факторов из полного его набора.

      Метод включения – дополнительное введение фактора.

      Шаговый регрессионный анализ – исключение ранее введенного фактора.

    При отборе факторов также рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6–7 раз меньше объема совокупности, по которой строится регрессия. Если это соотношение нарушено, то число степеней свободы остаточной дисперсии очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а
    -критерий меньше табличного значения.




    © 2024
    womanizers.ru - Журнал современной женщины