21.09.2019

Методы обнаружения гетероскедастичности. Гетероскедастичность и методы ее выявления. Оценивание регрессии в условиях гетероскедастичности ошибок


Гетероскедастичность (англ. Heterosсedasticity ) - понятие, используемое в эконометрике, означающее неоднородность наблюдений, выражающаяся в неодинаковой (непостоянной) дисперсии случайной ошибки регрессионной (эконометрической) модели. Гетероскедастичность противоположна понятию гомоскедастичность , которое означает однородность наблюдений, то есть постоянство дисперсии случайных ошибок модели.

Наличие гетероскедастичности случайных ошибок приводит к неэффективности оценок, полученных с помощью метода наименьших квадратов. Кроме того, в этом случае оказывается смещённой и несостоятельной классическая оценка ковариационной матрицы МНК-оценок параметров. Следовательно статистические выводы о качестве полученных оценок могут быть неадекватными. В связи с этим тестирование моделей на гетероскедастичность является одной из необходимых процедур при построении регрессионных моделей.

К тестам, позволяющим выявить наличие гетероскедас­тичности случайных остатков, относят тесты Гольдфельда - Квандта, Парка, Глейзера, Уайта, Бреуша - Патана, ранговой корреляции Спирмена и т.д.

Тест Гольдфельда -Квандта применяется, если случайные остатки предполагаются нормально распределенными вели­чинами и объем наблюдений достаточно большой. Процедура проверки следующая.

1. Все наблюдения упорядочивают по мере возрастания ка­кой-либо независимой переменной, которая, как пред­полагается, оказывает влияние на изменение дисперсии случайных остатков.

2. Упорядоченную совокупность делят на три группы, при­чем первая и последняя должны быть равного объема, с числом наблюдений, больших, чем число параметров модели регрессии. Пусть в первую и третью группы ото­брано по к наблюдений.

3. По первой и третьей группам находят параметры урав­нений регрессии той же структуры, что и исходное урав­нение регрессии, и остаточные суммы квадратов по ка­ждой модели.

4. Используя данные об остаточных суммах квадратов мо­делей первой и третьей групп, рассчитывают фактиче­ское значение F-критерия Фишера по формуле

где - большая остаточная сумма квадратов; - меньшая остаточная сумма квадратов.

5. Сравнивают фактическое значение F-критерия с таблич­ным, найденным для степеней сво­боды. Если F-фактическое больше табличного, то гипо­теза об отсутствии гетероскедастичности отклоняется.

Тесты Парка, Глейзера, Уайта и Бреуша - Пагана основы­ваются на предположении, что дисперсия случайных остатков представляет собой определенную функцию от некоторой не­зависимой переменной (или переменных). Перед применени­ем этих тестов по уравнению регрессии необходимо рассчи­тать случайные остатки .

Для теста Парка строят зависимость вида

, (69)

где - -e значение - независимой переменной, оказывающей вли­яние на дисперсию остатков; - случайный остаток.

По тесту Глейзера находят параметры целой серии урав­нений, задаваемых функцией

, (70)

где - какое-либо число, например и т.п.

Тест Уайта заключается в построении квадратичной фун­кции, включающей все независимые переменные, входя­щие в исходную модель, а также их попарные произведения. Включение попарных произведений независимых перемен­ных является необязательным, их можно опустить. Для случая с двумя переменными эта функция будет иметь вид

где - неизвестные параметры.

Тест Бреуша - Пагана предполагает исследование вли­яния на дисперсию остатков нескольких независимых пере­менных, которые включают в регрессию вида

где - -e значениям -й, -й, -й незави­симых переменных, оказывающих влияние на дисперсию остатков; - оценка дисперсии случайных остатков, рассчитанная по формуле

Остатки считаются гетероскедастичными, если параметр в функциях по тесту Парка (69) или тесту Глейзера (70) значим (для теста Глейзера - хотя бы при одном значении ). При проверке по тесту Уайта говорят, что остатки гетероскедастичны, если вся функция (71) значима по F-критерию Фишера.

Проверка гетероскедастичности по тесту Бреуша - Пагана заключается в расчете по функции (72) факторной суммы квадратов

которое сравнивается с табличным (число степеней свобо­ды равно , т.е. числу независимых переменных в мо­дели (72); уровень значимости равен . Нулевая гипотеза о гомоскедастичности случайных остатков отвергается, если

Тест ранговой корреляции Спирмена, так же как и ранее рассмотренные тесты, основывается на предположении о за­висимости (прямой или обратной) величины дисперсии слу­чайных остатков от значений какой-либо независимой пере­менной. Для проведения проверки по этому тесту значения случайных остатков, взятые по модулю, и значения этой пере­менной ранжируют (например, по возрастанию), а затем на­ходят коэффициент корреляции рангов Спирмена

,

где - разность между рангами -гo случайного остатка и -гo зна­чения независимой переменной.

Полученное значение коэффициента корреляции проверяют на значимость, рассчитывая фактическое значение - критерия Стьюдента (73) и сравнивая его с табличным значением при числе степеней свободы .

Если фактическое значение критерия больше таблично­го, то гипотеза о гомоскедастичности остатков отклоняется.

Проверим на гетероскедастичность модель регрессии из на­шего примера:

Рассчитаем случайные остатки для этой модели (табл. 9).

Таблица 9. Расчет случайных остатков для модели регрессии поступления налогов от количества занятых, объема отгрузки в обрабатывающих производствах и производства энергии

1422,20 4804,33 -3382,13 16 868,50 14 895,12 1973,38
2529,70 5056,17 -2526,47 18 019,40 13 781,67 4237,73
2629,10 5144,80 -2515,70 18 950,30 27 753,87 -8803,57
2764,30 4755,64 -1991,34 19 995,50 27 517,44 -7521,94
3347,50 7553,53 -4206,03 20 445,60 13 948,95 6496,65
3914,20 5263,55 -1349,35 21 220,80 29 518,94 -8298,14
4400,80 7241,83 -2841,03 21 360,00 20 644,76 715,24
5904,00 8992,88 -3088,88 21 418,80 19 152,00 2266,80
6956,70 7161,55 -204,85 21 477,10 22 791,19 -1314,09
7595,10 10 469,73 -2874,63 21 816,30 21 263,08 553,22
9257,80 14 251,91 994,11 22 824,90 14 496,10 8328,80
9317,10 5569,87 3747,23 23 579,30 17 021,68 6557,62
9978,80 12 356,21 -2377,41 23 702,60 14 531,28 9171,32
10 144,80 10 929,40 -784,60 24 007,20 22 773,85 1233,35
10 215,40 9619,74 595,66 27 581,20 31 028,32 -3447,12
11 349,50 14 390,38 -3040,88 28 057,50 32 314,79 -4257,29
12 046,90 14 174,13 -2127,23 29 815,50 31 859,41 -2043,91
12 061,40 14 898,60 -2837,20 32 236,50 31 936,40 300,10
12 104,20 17 000,04 -4895,84 32 657,40 32 494,15 163,25
13 042,40 10 214,84 2827,56 32 672,70 26 620,17 6052,53
13 104,30 13 167,07 -62,77 34 351,10 22 852,20 11 498,90
13 396,40 17 660,39 -4263,99 36 050,40 35 892,53 157,87
14 170,30 22 136,25 -7965,95 36 544,30 22 893,37 13 650,93
14 227,00 15 269,09 -1042,09 37 136,90 22 606,54 14 530,36


График зависимости случайных остатков от выровненного значения зависимой переменной имеет вид, представленный на рис. 5. Можно отметить определенное увеличение раз­броса точек в центральной части графика и уменьшение раз­броса для последних нескольких точек. Такая картина может свидетельствовать о наличии гетероскедастичности остатков.

Рисунок 5. Изменение дисперсии случайных остатков с ростом выровненного значения зависимой переменной

Применим для анализа дисперсии остатков рассмотренные выше тесты. Так как большинство тестов основано на гипоте­зе, что известна переменная, вызывающая гетероскедастичность остатков, обратимся сначала к тесту Уайта, в котором рассматриваются все независимые переменные, входящие в модель регрессии.

Используем короткую форму теста Уайта, без включения попарных произведений независимых переменных. Получим следующий результат:

Табличное значение F-критерия равно 2,33 (). Таким образом, по тесту Уайта нет оснований отвергнуть нулевую гипотезу о гомоскедастичности остатков. Отметим также, что все параметры незначимы, но наиболь­шее значение -критерия (и достаточно близкое к таблично­му) имеют параметры при переменной (табличное значение -критерия составило 2,02 ()). Таким обра­зом, переменная может быть рассмотрена в других тестах как возможная причина гетероскедастичности.

Тест Бреуша - Пагана позволяет рассматривать различные комбинации переменных в качестве объясняющих гетероске­дастичность остатков. Уравнение теста, включающее в себя все три независимые переменные, будет иметь вид

.

Табличное значение критерия равно 7,82 (), таким образом, нет оснований отвергнуть нулевую гипо­тезу о гомоскедастичности случайных остатков. Руководствуясь предположениями, сделанными в ходе анализа теста Уайта, проведем тест Бреуша - Пагана применительно только к пе­ременной . Получим следующие результаты:

.

Табличное значение критерия в данном случае равно 3,84 (), таким образом, мы отвергаем нулевую гипо­тезу о гомоскедастичности случайных остатков. Остатки гетероскедастичны по переменной . Анализ по тесту Бреуша - Пагана при необходимости можно продолжить, исследуя влияние на дисперсию случайных остатков других независи­мых переменных. Опираясь на выявленное влияние на дис­персию остатков переменной , проверим эту связь с помо­щью других тестов.

Использование критерия Гольдфельда - Квандта предпо­лагает упорядочивание данных, в нашем случае по перемен­ной .

Общий объем наблюдений составляет 48 регионов, т.е. их можно разделить на три равные группы по 16 наблюдений в каждой или по 18 наблюдений в первой и третьей группах и 12 наблюдений во второй. Так как критерий Гольдфельда - Квандта предполагает построение уравнений регрессии той же структуры, что и исходное уравнение, остановимся на втором варианте деления совокупности как обеспечивающим боль­шую достоверность регрессионного анализа (18 наблюдений на три коэффициента регрессии, т.е. по шесть наблюдений на каждый коэффициент).

Для первой и третьей совокупностей наблюдений най­дем параметры уравнений множественной регрессии вида и рассчитаем случайные остатки по ка­ждому из них. Получим следующие результаты.

Первая группа (минимальные значения ):

Подводя итоги выявления гетероскедастичности в нашем примере, отметим, что по ряду тестов (Бреуша - Пагана, Гольдфельда - Квандта, Глейзера) гипотеза о гомоскеда­стичности остатков была отвергнута, т.е. можно утверждать, что на дисперсию случайных остатков оказывает влияние пе­ременная . То, что гетероскедастичность была выявлена не во всех тестах, связано с тем, что разные тесты опираются на разные предпосылки о форме связи величины случайных остатков и независимой переменной. Исследование по тесту Глейзера показывает, что эта форма может быть описана вы­ражением , где - линейная функция.

Причинами гетероскедастичности случайных остатков мо­гут быть неверная функциональная форма уравнения регрес­сии (неверная спецификация модели), неоднородность иссле­дуемой совокупности. Соответственно способами устранения гетероскедастичности являются построение модели иной фун­кциональной формы и (или) разбиение совокупности на одно­родные группы. Если по каким-то причинам это сделать не­возможно или нежелательно, то для нахождения параметров уравнения регрессии можно воспользоваться обобщенным методом наименьших квадратов.

Ответы на экзаменационные билеты по эконометрике Яковлева Ангелина Витальевна

57. Гетероскедастичность остатков модели регрессии

Случайной ошибкой называется отклонение в линейной модели множественной регрессии:

?i=yi–?0–?1x1i–…–?mxmi

В связи с тем, что величина случайной ошибки модели регрессии является неизвестной величиной, рассчитывается выборочная оценка случайной ошибки модели регрессии по формуле:

где ei – остатки модели регрессии.

Термин гетероскедастичность в широком смысле понимается как предположение о дисперсии случайных ошибок модели регрессии.

При построении нормальной линейной модели регрессии учитываются следующие условия, касающиеся случайной ошибки модели регрессии:

6) математическое ожидание случайной ошибки модели регрессии равно нулю во всех наблюдениях:

7) дисперсия случайной ошибки модели регрессии постоянна для всех наблюдений:

8) между значениями случайных ошибок модели регрессии в любых двух наблюдениях отсутствует систематическая взаимосвязь, т. е. случайные ошибки модели регрессии не коррелированны между собой (ковариация случайных ошибок любых двух разных наблюдений равна нулю):

Второе условие

означает гомоскедастичность (homoscedasticity – однородный разброс) дисперсий случайных ошибок модели регрессии.

Под гомоскедастичностью понимается предположение о том, что дисперсия случайной ошибки ?i является известной постоянной величиной для всех наблюдений.

Но на практике предположение о гомоскедастичности случайной ошибки?i или остатков модели регрессии ei выполняется не всегда.

Под гетероскедастичностью (heteroscedasticity – неоднородный разброс) понимается предположение о том, что дисперсии случайных ошибок являются разными величинами для всех наблюдений, что означает нарушение второго условия нормальной линейной модели множественной регрессии:

Гетероскедастичность можно записать через ковариационную матрицу случайных ошибок модели регрессии:

Тогда можно утверждать, что случайная ошибка модели регрессии ?i подчиняется нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2? :

?i~N(0; G2?),

где ? – матрица ковариаций случайной ошибки.

Если дисперсии случайных ошибок

модели регрессии известны заранее, то проблема гетероскедастичности легко устраняется. Однако в большинстве случаев неизвестными являются не только дисперсии случайных ошибок, но и сама функция регрессионной зависимости y=f(x), которую предстоит построить и оценить.

Для обнаружения гетероскедастичности остатков модели регрессии необходимо провести их анализ. При этом проверяются следующие гипотезы.

Основная гипотеза H0 предполагает постоянство дисперсий случайных ошибок модели регрессии, т. е. присутствие в модели условия гомоскедастичности:

Альтернативная гипотеза H1 предполагает непостоянство дисперсиий случайных ошибок в различных наблюдениях, т. е. присутствие в модели условия гетероскедастичности:

Гетероскедастичность остатков модели регрессии может привести к негативным последствиям:

1) оценки неизвестных коэффициентов нормальной линейной модели регрессии являются несмещёнными и состоятельными, но при этом теряется свойство эффективности;

2) существует большая вероятность того, что оценки стандартных ошибок коэффициентов модели регрессии будут рассчитаны неверно, что конечном итоге может привести к утверждению неверной гипотезы о значимости коэффициентов регрессии и значимости модели регрессии в целом.

Из книги Ответы на экзаменационные билеты по эконометрике автора Яковлева Ангелина Витальевна

14. Оценка коэффициентов модели парной регрессии с помощью выборочного коэффициента регрессии Помимо метода наименьших квадратов, с помощью которого в большинстве случаев определяются неизвестные параметры модели регрессии, в случае линейной модели парной регрессии

Из книги автора

15. Оценка дисперсии случайной ошибки модели регрессии При проведении регрессионного анализа основная трудность заключается в том, что генеральная дисперсия случайной ошибки является неизвестной величиной, что вызывает необходимость в расчёте её несмещённой

Из книги автора

18. Характеристика качества модели регрессии Качеством модели регрессии называется адекватность построенной модели исходным (наблюдаемым) данным.Для оценки качества модели регрессии используются специальные показатели.Качество линейной модели парной регрессии

Из книги автора

35. Проверка гипотезы о значимости коэффициентов регрессии и модели множественной регрессии в целом Проверка значимости коэффициентов регрессии означает проверку основной гипотезы об их значимом отличии от нуля.Основная гипотеза состоит в предположении о незначимости

Из книги автора

39. Модели регрессии, нелинейные по факторным переменным При исследовании социально-экономических явлений и процессов далеко не все зависимости можно описать с помощью линейной связи. Поэтому в эконометрическом моделировании широко используется класс нелинейных

Из книги автора

40. Модели регрессии, нелинейные по оцениваемым коэффициентам Нелинейными по оцениваемым параметрам моделями регрессииназываются модели, в которых результативная переменная yi нелинейно зависит от коэффициентов модели?0…?n.К моделям регрессии, нелинейными по

Из книги автора

41. Модели регрессии с точками разрыва Определение. Моделями регрессии с точками разрыва называются модели, которые нельзя привести к линейной форме, т. е. внутренне нелинейные модели регрессии.Модели регрессии делятся на два класса:1) кусочно-линейные модели регрессии;2)

Из книги автора

44. Методы нелинейного оценивания коэффициентов модели регрессии Функцией потерь или ошибок называется функционал вида Также в качестве функции потерь может быть использована сумма модулей отклонений наблюдаемых значений результативного признака у от теоретических

Из книги автора

46. Проверка гипотезы о значимости нелинейной модели регрессии. Проверка гипотезы о линейной зависимости между переменными модели регрессии На нелинейные модели регрессии, которые являются внутренне линейными, т. е. сводимыми к линейному виду, распространяются все

Из книги автора

58. Тест Глейзера обнаружения гетероскедастичности остатков модели регрессии Существует несколько тестов на обнаружение гетероскедастичности остатков модели регрессии.Рассмотрим применение теста Глейзера на примере линейной модели парной регрессии.Предположим, что

Из книги автора

59. Тест Голдфелда-Квандта обнаружения гетероскедастичности остатков модели регрессии Основным условием проведения теста Голдфелда-Квандта является предположение о нормальном законе распределения случайной ошибки?i модели регрессии.Рассмотрим применение данного

Из книги автора

60. Устранение гетероскедастичности остатков модели регрессии Существует множество методов устранения гетероскедастичности остатков модели регрессии. Рассмотрим некоторые из них.Наиболее простым методом устранения гетероскедастичности остатков модели регрессии

Из книги автора

61. Автокорреляция остатков модели регрессии. Последствия автокорреляции. Автокорреляционная функция Автокорреляцией называется корреляция, возникающая между уровнями изучаемой переменной. Это корреляция, проявляющаяся во времени. Наличие автокорреляции чаще всего

Из книги автора

62. Критерий Дарбина-Уотсона обнаружения автокорреляции остатков модели регрессии Помимо автокорреляционной и частной автокорреляционной функций для обнаружения автокорреляции остатков модели регрессии используется критерий Дарбина-Уотсона. Однако данный критерий

Из книги автора

63. Устранение автокорреляции остатков модели регрессии В связи с тем, что наличие в модели регрессии автокорреляции между остатками модели может привести к негативным результатам всего процесса оценивания неизвестных коэффициентов модели, автокорреляция остатков

Из книги автора

67. Модели регрессии с переменной структурой. Фиктивные переменные При построении модели регрессии может возникнуть ситуация, когда в неё необходимо включить не только количественные, но и качественные переменные (например, возраст, образование, пол, расовую

При оценке параметров уравнения регрессии мы применяем метод наименьших квадратов. При этом делаем определенные предпосылки относительно случайной составляющей . В модели

у = а + b 1  x + 

случайная составляющая  представляет собой ненаблюдаемую величину. После того как проведена оценка параметров модели, рассчитав разности фактических и теоретических значений результативного признака у , можно определить оценки случайной составляющей (у ). При изменении спецификации модели, добавлении в нее новых наблюдений выборочные оценки остатков i , могут меняться. Поэтому в задачу регрессионного анализа входит не только построение самой модели, но и исследование случайных отклонений  i , т.е. остаточных величин.

В предыдущем разделе рассматривались формальные проверки статистической достоверности коэффициентов регрессии и корреляции с помощью t -критерия Стьюдента и F -критерия. При использовании этих критериев делаются предположения относительно поведения остатков  i . Остатки представляют собой независимые случайные величины, и их среднее значение равно 0; они имеют одинаковую (постоянную) дисперсию и подчиняются нормальному распределению.

Оценки параметров регрессии должны отвечать определенным критериям: быть несмещенными, состоятельными и эффективными.

Несмещенность оценки означает, что математическое ожидание остатков равно нулю. Следовательно, при большом числе выборочных оцениваний остатки не будут накапливаться и найденный параметр регрессии b i можно рассматривать как среднее значение из возможного большого количества несмещенных оценок.

Для практических целей важна не только несмещенность, но и эффективность оценок. Оценки считаются эффективными , если они характеризуются наименьшей дисперсией.

Степень реалистичности доверительных интервалов параметров регрессии обеспечивается, если оценки будут не только несмещенными и эффективными, но и состоятельными . Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки.

Исследования остатков  i предполагают проверку наличия следующих пяти предпосылок МНК (см. условия ГауссаМаркова):

    Случайный характер остатков.

Для этого строится график зависимости остатков  i от теоретических значений результативного признака .Если на графике нет направленности в расположении точек  i , то остатки  i представляют собой случайные величины и МНК оправдан, теоретические значения хорошо аппроксимируют фактические значенияу .

    Нулевая средняя величина остатков, не зависящая от х i .

Вторая предпосылка МНК относительно нулевой средней величины остатков означает, что (у ) = 0. Это выполнимо для линейных моделей и моделей, нелинейных относительно включаемых переменных. Для моделей, нелинейных по оцениваемым параметрам и приводимых к линейному виду логарифмированием, средняя ошибка равна нулю для логарифмов исходных данных. Так, для модели вида

    Гомоскедастичность дисперсия каждого отклонения i одинакова для всех значений х .

В соответствии с третьей предпосылкой метода наименьших квадратов требуется, чтобы дисперсия остатков была гомоскедастичной . Это значит, что для каждого значения фактора х i остатки имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность (рис. 1).

Гомоскедастичность остатков означает, что дисперсия остатков  i одинакова для каждого значения х .

Наличие гетероскедастичности в отдельных случаях может привести к смещенности оценок коэффициентов регрессии, хотя несмещенность оценок коэффициентов регрессии в основном зависит от соблюдения второй предпосылки МНК, т.е. независимости остатков и величин факторов.

Гетероскедастичность будет сказываться на уменьшении эффективности оценок b i . В частности, становится затруднительным использование формулы стандартной ошибки коэффициента регрессии , предполагающей единую дисперсию остатков для любых значений фактора.

Рассмотрим тесты , которые позволяют провести анализ модели на гомоскедастичность.

При малом объеме выборки, что наиболее характерно для эконометрических исследований, для оценки гетероскедастичности может использоваться метод Гольдфельда Квандта , разработанный в 1965 г. Гольдфельд и Квандт рассмотрели однофакторную линейную модель, для которой дисперсия остатков возрастает пропорционально квадрату фактора. Для того чтобы оценить нарушение гомоскедастичности, они предложили параметрический тест , который включает в себя следующие шаги:

    Упорядочение п наблюдений по мере возрастания переменной х .

    Исключение из рассмотрения С центральных наблюдений; при этом (п  С)/2 > р , где р  число оцениваемых параметров.

Из экспериментальных расчетов, проведенных авторами метода для случая одного фактора, рекомендовано при п = 30 принимать С = 8, а при п = 60 – соответственно С = 16.

    Разделение совокупности из (п С ) наблюдений на две группы (соответственно с малыми и большими значениями фактора х ) и определение по каждой из групп уравнений регрессии.

    Определение остаточной суммы квадратов для первой (S 1) и второй (S 2) групп и нахождение их отношения: R = S 1 /S 2 , где S 1 > S 2 .

При выполнении нулевой гипотезы о гомоскедастичности отношение R будет удовлетворять F -критерию с (п С 2р )/2 степенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F -критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

Критерий ГольдфельдаКвандта используется и при проверке остатков множественной регрессии на гетероскедастичность.

Наличие гетероскедастичности в остатках регрессии можно проверить и с помощью ранговой корреляции Спирмэна . Суть проверки заключается в том, что в случае гетероскедастичности абсолютные остатки  i коррелированы со значениями фактора х i . Эту корреляцию можно измерять с помощью коэффициента ранговой корреляции Спирмэна:

, (31)

где d  абсолютная разность между рангами значений х i и | i |.

Статистическую значимость  можно оценить с помощью t -критерия:

. (32)

Сравнив эту величину с табличной величиной при  = 0,05 и числе степеней свободы (п m ). Принято считать, что если t  > t  , то корреляция между  i и х i статистически значима, т. е. имеет место гетероскедастичность остатков. В противном случае принимается гипотеза об отсутствии гeтероскедастичности остатков.

Рассмотренные критерии не дают количественной оценки зависимости дисперсии ошибок регрессии от соответствующих значений факторов, включенных в регрессию. Они позволяют лишь определить наличие или отсутствие гетероскедастичности остатков. Поэтому если гетероскедастичность остатков установлена, можно количественно оценить зависимость дисперсии ошибок регрессии от значений факторов. С этой целью могут быть использованы тесты Уайта, Парка, Глейзера и др.

Тест Уайта предполагает, что дисперсия ошибок регрессии представляет собой квадратичную функцию от значений факторов, т.е. при наличии одного фактора  2 = а + bx + cx 2 + u , или при наличии факторов:

 2 = a + b 1 x 1 + b 11 +b 2 x 2 + b 22 +b 12 x 1 x 2 + … + b p x p + b pp + + b 1 p x 1 x p + b 2 p x 2 x p + … + u .

Так что модель включает в себя не только значения факторов, но и их квадраты, а также попарные произведения. Поскольку каждый параметр модели =f (х i ) должен быть рассчитан на основе достаточного числа степеней свободы, то чем меньше объем исследуемой совокупности, тем в меньшей мере квадратичная функция сможет содержать попарные произведения факторов. Например, если регрессия строится по 30 наблюдениям как y i = a + b 1 x +  i , то последующая квадратичная функция для остатков может быть представлена лишь как

 2 = а + b 1 x + b 11 х 2 + u ,

поскольку на каждый параметр при х должно приходиться не менее 67 наблюдений. В настоящее время тест Уайта включен в стандартную программу регрессионного анализа в пакете Econometric Views. О наличии или отсутствии гетероскедастичности остатков судят по величине F -критерия Фишера для квадратичной функции регрессии остатков. Если фактическое значение F -критерия выше табличного, то, следовательно, существует четкая корреляционная связь дисперсии ошибок от значений факторов, включенных в регрессию, и имеет место гетероскедастичность остатков. В противном случае (F факт < F табл) делается вывод об отсутствии гeтероскедастичности остатков регрессии.

Тест Парка также относится к формализованным тестам гетероскедастичности. Предполагается, что дисперсия остатков связана со значениями факторов функций ln  2 = а + b ln х + и . Данная регрессия строится для каждого фактора в условиях многофакторной модели. Проверяется значимость коэффициента регрессии b по t -критерию Стьюдента. Если коэффициент регрессии для уравнения ln 2 окажется статистически значимым, то, следовательно, существует зависимость ln 2 от lnх , т.е. имеет место гетероскедастичность остатков.

Если тесты Уайта и Парка предназначены для оценки гетероскедастичности для квадрата остатков  2 , то тест Глейзера основывается на регрессии абсолютных значений остатков ||, т.е. рассматривается функция | i | = а + b + и i . Регрессия | i | от х i строится при разных значениях параметра с , и далее отбирается та функция, для которой коэффициент регрессии b оказывается наиболее значимым, т.е. имеет место наибольшее значение t -критерия Стьюдента или F -критерия Фишера и R 2 .

При обнаружении гетероскедастичности остатков регрессии ставится цель ее устранения, чему служит применение обобщенного метода наименьших квадратов (см. ниже).

    Отсутствие автокорреляции остатков. Значения остатков i , распределены независимо друг от друга .

Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений.

При построении регрессионных моделей чрезвычайно важно соблюдение данного условия. Коэффициент корреляции между  i и  i -1 , где  i  остатки текущих наблюдений,  i -1  остатки предыдущих наблюдений может быть определен как

, (33)

что соответствует формуле линейного коэффициента корреляции. Если этот коэффициент окажется существенно отличным от нуля, то остатки автокоррелированы и функция плотности вероятности F () зависит от j -й точки наблюдения и от распределения значений остатков в других точках наблюдения.

Отсутствие автокорреляции остатков обеспечивает состоятельность и эффективность оценок коэффициентов регрессии. Особенно актуально соблюдение данной предпосылки МНК при построении регрессионных моделей по рядам динамики, где при наличии тенденции последующие уровни динамического ряда, как правило, зависят от своих предыдущих уровней.

    Остатки подчиняются нормальному распределению.

Предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев t иF . Вместе с тем оценки регрессии, найденные с применением МНК, обладают хорошими свойствамидаже при отсутствии нормального распределения остатков, т.е. при нарушении пятой предпосылки метода наименьших квадратов.

Наряду с предпосылками метода наименьших квадратов как метода оценивания параметров регрессии при построении регрессионных моделей должны соблюдаться определенные требования относительно переменных, включаемых в модель. Прежде всего, число переменных т должно быть не больше, чем
. Иначе параметры регрессии оказываются статистически незначимыми. В общем виде применение МНК возможно, если число наблюдений п превышает число оцениваемых параметров т , т.е. система нормальных уравнений имеет решение только тогда, когда п > т .

При несоблюдении основных предпосылок МНК приходится корректировать модель, изменяя ее спецификацию, добавлять (исключать) некоторые факторы, преобразовывать исходные данные для того, чтобы получить оценки коэффициентов регрессии, которые обладают свойством несмещенности, имеют меньшее значение дисперсии остатков и обеспечивают в связи с этим более эффективную статистическую проверку значимости параметров регрессии. Этой цели, как уже указывалось, служит применение обобщенного метода наименьших квадратов.








5 Модели с гетероскедастичными остатками Причиной непостоянства дисперсии эконометрической модели часто является ее зависимость от масштаба рассматриваемых явлений. В модель ошибка входит как аддитивное слагаемое. В то же время часто она имеет относительный характер и определяется по отношению к измеренному уровню рассматриваемых факторов.


7 Примеры моделей с гетероскедастичным случайным членом а)в)б) а) Дисперсия 2 растет по мере увеличения значений объясняющей переменной X б) Дисперсия 2 имеет наибольшие значения при средних значениях X, уменьшаясь по мере приближения к крайним значениям в) Дисперсия ошибки наибольшая при малых значениях X, быстро уменьшается и становится однородной по мере увеличения X




12 Источники гетероскедастичности – 2 Истинная гетероскедастичность возникает также и во временных рядах, когда зависимая переменная имеет большой интервал качественно неоднородных значений или высокий темп изменения (инфляция, технологические сдвиги, изменения в законодательстве, потребительские предпочтения и т.д.).






15 Последствия гетероскедастичности 1. Истинная гетероскедастичность не приводит к смещению оценок коэффициентов регрессии 2. Стандартные ошибки коэффициентов (вычисленные в предположении. гомоскедастичности) будут занижены. Это приведет к завышению t-статистик и даст неправильное (завышенное) представление о точности оценок.


16 Обнаружение гетероскедастичности Обнаружение гетероскедастичности в каждом конкретном случае – довольно сложная задача. Для знания необходимо знать распределение случайной величины Y/X=x i. На практике часто для каждого конкретного значения x i известно лишь одно y i, что не позволяет оценить дисперсию случайной величины Y/X=x i. Не существует какого-либо однозначного метода определения гетероскедастичности.






19 Тест ранговой корреляции Спирмена При использовании данного теста предполагается, что дисперсии отклонений остатков будут монотонно изменяться (увеличиваться или уменьшаться) с увеличением фактора пропорциональности Z. Поэтому значения e i и z i будут коррелированы (возможно, нелинейно!).








25 Тест Глейзера. Алгоритм применения 1. Строится уравнение регрессии: и вычисляются остатки. 2. Выбирается фактор пропорциональности Z и оценивают вспомогательное уравнение регрессии: Изменяя, строят несколько моделей: 3. Статистическая значимость коэффициента 1 в каждом случае означает наличие гетероскедастичности. 4. Если для нескольких моделей будет получена значимая оценка 1, то характер гетероскедастичности определяют по наиболее значимой из них.


26 Тесты Парка и Глейзера. Выводы Отметим, что как в тесте Парка, так и в тесте Глейзера для отклонений i может нарушаться условие гомоскедастичности. Однако, во многих случаях используемые в тестах модели являются достаточно хорошими для определения гетероскедастичности.




28 Тест Голдфелда-Квандта. Алгоритм применения 1. Выделяют фактор пропорциональности Z = X k. Данные упорядочиваются в порядке возрастания величины Z. 2. Отбрасывают среднюю треть упорядоченных наблюдений. Для первой и последней третей строятся две отдельные регрессии, используя ту же спецификацию модели регрессии. 3. Количество наблюдений в этих подвыборках должно быть одинаково. Обозначим его l.


29 Тест Голдфелда-Квандта. Алгоритм применения 4. Берутся суммы квадратов остатков для регрессий по первой трети RSS 1 и последней трети RSS 3. Рассчитывают их отношение: 5. Используем F-тест для проверки гомоскедастичности. Если статистика GQ удовлетворяет неравенству то гипотеза гомоскедастичности остатков отвергается на уровне значимости.






33 Тест Уайта. Алгоритм применения (на примере трех переменных) 3. Определяют из вспомогательного уравнения тестовую статистику 4. Проверяют общую значимость уравнения с помощью критерия 2. Если то гипотеза гомоскедастичности отвергается. Число степеней свободы k равно числу объясняющих Переменных вспомогательного уравнения. В частности, Для рассматриваемого случая k = 9.



36


37 Тест Бреуша-Пагана. Алгоритм применения 4. Для вспомогательного уравнения регрессии определяют объясненную часть вариации RSS. 5. Находим тестовую статистику: 6. Если верна гипотеза H 0: гомоскедастичность остатков, то статистика BP имеет распределение. Т.е. о наличии гетероскедастичности остатков на уровне значимости свидетельствует:




40 Обобщенный метод наименьших квадратов При нарушении гомоскедастичности и наличии автокорреляции остатков рекомендуется вместо традиционного МНК использовать обобщенный МНК. Его для случая устранения гетероскедастичности часто называют методом взвешенных наименьших квадратов. Основан на делении каждого наблюдаемого значения на соответствующее ему стандартное отклонение остатков. Метод применим, если известны дисперсии для каждого наблюдения.


41 Метод взвешенных наименьших квадратов. Случай парной регрессии Получили уравнение регрессии без свободного члена, но с дополнительной объясняющей переменной Z и с «преобразованным» остатком. Можно показать, что для него выполняются предпосылки 1 0 – 5 0 МНК.


42 Метод взвешенных наименьших квадратов. Случай парной регрессии На практике, значения дисперсии остатков, как правило, не известны. Для применения метода ВНК необходимо сделать реалистичные предположения об этих значениях. Например: Дисперсии пропорциональны X i: Дисперсии пропорциональны X i 2:



Обнаружение гетероскедастичности в каждом конкретном случае является довольно сложной задачей, так как для знания дисперсий отклонений необходимо знать распределение СВ Y , соответствующее выбранному значению СВ Х .

Не существует какого-либо однозначного метода определения гетероскедастичности. Однако к настоящему времени для такой проверки разработано довольно большое число тестов и критериев для них. Рассмотрим наиболее популярные и наглядные: графический анализ отклонений, тест ранговой корреляции Спирмена, тест Парка, тест Глейзера, тест Гольдфельда-Квандта.

1).Графический анализ остатков.

Использование графического представления отклонений позволяет определиться с наличием гетероскедастичности. В этом случае по оси абсцисс откладываются значения объясняющей переменной Х (либо линейной комбинации объясняющих переменных , а по оси ординат либо отклонения , либо их квадраты .Примеры таких графиков приведены на рис. 5.3.

На рис. 5.3,а все отклонения находятся внутри полуполосы постоянной ширины, параллельной оси абсцисс. Это говорит о независимости дисперсий от значений переменной Х и их постоянстве, т.е. в этом случае выполняются условия гомоскедастичности.

На рис. 5.3, б-д наблюдаются некоторые систематические изменения в соотношениях между значениями переменной Х и квадратами отклонений . Рис. 5.3, б соответствует примеру из пункта 1. На рис. 5.3, в отражена линейная, 5.3, г – квадратичная, 5.3, д – гиперболическая зависимости между квадратами отклонений и значениями объясняющей переменной Х . Другими словами, ситуации, представленные на рис. 5.3, в-д , отражают большую вероятность наличия гетероскедастичности для рассматриваемых статистических данных.

Рис. 5. 3

2).Тест ранговой корреляции Спирмена

При использовании данного теста предполагается, что дисперсия отклонения будет либо увеличиваться, либо уменьшаться с увеличением значений Х . Поэтому для регрессии, построенной по МНК, абсолютные величины отклонений и значения СВ Х будут коррелированны. Значения и ранжируются (упорядочиваются по величинам). Затем определяется коэффициент ранговой корреляции:

, (5.1)

где - разность между рангами и ; -число наблюдений.

Например, если является 25-м по величине среди всех наблюдений Х , а является 32-м, то .

Доказано, что если коэффициент корреляции для генеральной совокупности равен нулю, то статистика

имеет распределение Стьюдента с числом степеней свободы .

Следовательно, если наблюдаемое значение -статистики, вычисленное по формуле (5.2), превышает (определяемое по таблице критических точек распределения Стьюдента), то необходимо отклонить гипотезу о равенстве нулю коэффициента корреляции , а следовательно, и об отсутствии гетероскедастичности. В противном случае гипотеза об отсутствии гетероскедастичности принимается.

3).Тест Парка.

Р.Парк предложил критерий определения гетероскедастичности, дополняющий графический метод некоторыми формальными зависимостями. Предполагается, что дисперсия является функцией -го значения объясняющей переменной. Парк предложил следующую функциональную зависимость:

Прологарифмировав (5.3), получим:

Так как дисперсия обычно неизвестны, то их заменяют оценками квадратов отклонений .

Критерий Парка включает следующие этапы:

1. Строится уравнение регрессии .

2. Для каждого наблюдения определяются .

3. Строится регрессия

, (5.5)

В случае множественной регрессии зависимость (5.5) строится для каждой объясняющей переменной.

4. Проверяется статистическая значимость коэффициента уравнения (5.5) на основе -статистики . Если коэффициент статистически значим, то это означает наличие связи между и , т.е. гетероскедастичности в статистических данных.

4).Тест Глейзера.

Тест Глейзера по своей сути аналогичен тесту Парка и дополняет его анализом других (возможно, более подходящих) зависимостей между дисперсиями отклонений и значениями переменной . По данному методу оценивается регрессионная зависимость модулей отклонений (тесно связанных с ) от . При этом рассматриваемая зависимость моделируется следующим уравнением регрессии:

. (5.6)

Изменяя значение , можно построить различные регрессии. Обычно Статистическая значимость коэффициента в каждом конкретном случае фактически означает наличие гетероскедастичности. Если для нескольких регрессий (5.6) коэффициент оказывается статистически значимым, то при определении характера зависимости обычно ориентируются на лучшую из них.

5).Тест Гольдфельда-Квандта.

В данном случае также предполагается, что стандартное отклонение пропорционально значению переменной Х в этом наблюдении, т.е. . Предполагается, что имеет нормальное распределение и отсутствует автокорреляция остатков.

Тест Гольдфельда-Квандта состоит в следующем:

1. Все наблюдений упорядочиваются по величине Х.

2. Вся упорядоченная выборка после этого разбивается на три подвыборки размерностей соответственно.




© 2024
womanizers.ru - Журнал современной женщины