Явление мультиколлинеарности встречается в моделях. Мультиколлинеарность, ее последствия. Установление мультиколлинеарности, методы ее устранения. Вопросы на экзамен по курсу

Мультиколлинеарность - это коррелированность двух или нескольких объясняющих переменных в уравнении регрессии. Она может быть функциональной (явной) и стохастической (скрытой). При функциональной мультиколлинеарности матрица ХТХ - вырождена и, (ХТХ)-1 не существует, поэтому невозможно определить. Чаще мультиколлинеарность проявляется в стохастической форме, при этом МНК - оценки формально существуют, но обладают рядом недостатков:

  • 1) небольшое изменение исходных данных приводит к существенному изменению оценок регрессии;
  • 2) оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (высокое значение R2);
  • 3) расширяются интервальные оценки коэффициентов, ухудшая их точность;
  • 4) возможно получение неверного знака у коэффициента регрессии.

Обнаружение

Существует несколько признаков, по которым может быть установлено наличие мультиколлинеарности.

Во-первых, анализ корреляционной матрицы парных коэффициентов корреляции:

  • - если имеются пары переменных, имеющих высокие коэффициенты корреляции (> 0,75 - 0,8), говорят о мультиколлинеарности между ними;
  • - если факторы некоррелированы, то det Q = 1, если полная корреляция, то det Q = 0.

Можно проверить Н0: det Q = 1; используя статистический критерий

где n - число наблюдений, m = р+1.

Если, то Н0 отвергается, и мультиколлинеарность доказана.

Во-вторых, определяют множественные коэффициенты детерминации одной из объясняющих переменных и некоторой группой других. Наличие высокого R2 (> 0,6) свидетельствует о мультиколлинеарности.

В третьих, близость к нулю - минимального собственного значения матрицы ХТХ (т.е. решения уравнения) свидетельствует о близости к нулю и det(XTX) и, следовательно, о мультиколлинеарности.

В-четвертых, высокие частные коэффициенты корреляции.

где - алгебраические дополнения элементов матрицы выборочных коэффициентов корреляции. Коэффициенты частной корреляции более высоких порядков можно определить через коэффициенты частной корреляции более низких порядков по рекуррентной формуле:

В-пятых, о присутствии мультиколлинеарности говорят некоторые внешние признаки построенной модели, являющиеся её следствиями. К ним следует отнести такие:

  • · некоторые из оценок имеют неправильные с точки зрения экономической теории знаки или неоправданно большие по абсолютной величине значения;
  • · небольшое изменение исходных статистических данных (добавление или изъятие некоторых наблюдений) приводит к существенному изменению оценок коэффициентов модели, вплоть до изменения их знаков;
  • · большинство или даже все оценки коэффициентов регрессии оказываются статистически незначимыми по t-критерию, в то время как модель в целом является значимой по F-критерию.

Существует и ряд других методов определения мультиколлинеарности.

Если основная задача модели - прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации R2 (> 0,9) наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели. Это утверждение будет обоснованным, если и в будущем между коррелированными переменными сохранятся те же соотношения.

Если целью исследования является определение степени влияния каждой из объясняющих переменных на зависимую переменную, то наличие мультиколлинеарности, приводящее к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность является серьезной проблемой.

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Мультиколлинеарностью называется линейная взаимосвязь двух или нескольких объясняющих переменных, которая может проявляться в функциональной (явной) или стохастической (скрытой) форме.
Выявление связи между отобранными признаками и количественная оценка тесноты связи осуществляются с использованием методов корреляционного анализа. Для решения этих задач сначала оценивается , затем на ее основе определяются частные и множественные коэффициенты корреляции и детерминации, проверяется их значимость. Конечной целью корреляционного анализа является отбор факторных признаков x 1 , x 2 ,…,x m для дальнейшего построения уравнения регрессии.

Если факторные переменные связаны строгой функциональной зависимостью, то говорят о полной мультиколлинеарности . В этом случае среди столбцов матрицы факторных переменных Х имеются линейно зависимые столбцы, и, по свойству определителей матрицы , det(X T X) = 0 , т. е. матрица (X T X) вырождена, а значит, не существует обратной матрицы. Матрица (X T X) -1 используется в построении МНК-оценок. Таким образом, полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели регрессии.

К каким трудностям приводит мультиколлинеарность факторов, включенных в модель, и как они могут быть разрешены?

Мультиколлинеарность может привести к нежелательным последствиям:

  1. оценки параметров становятся ненадежными. Они обнаруживают большие стандартные ошибки. С изменением объема наблюдений оценки меняются (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.
  2. затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны; параметры линейной регрессии теряют экономический смысл;
  3. становится невозможным определить изолированное влияние факторов на результативный показатель.

Вид мультиколлинеарности, при котором факторные переменные связаны некоторой стохастической зависимостью, называется частичной. Если между факторными переменными имеется высокая степень корреляции, то матрица (X T X) близка к вырожденной, т. е. det(X T X) ≈ 0.
Матрица (X T X) -1 будет плохо обусловленной, что приводит к неустойчивости МНК-оценок. Частичная мультиколлинеарность приводит к следующим последствиям:

  • увеличение дисперсий оценок параметров расширяет интервальные оценки и ухудшает их точность;
  • уменьшение t -статистик коэффициентов приводит к неверным выводам о значимости факторов;
  • неустойчивость МНК-оценок и их дисперсий.

Точных количественных критериев для обнаружения частичной мультиколлинеарности не существует. О наличии мультиколлинеарности может свидетельствовать близость к нулю определителя матрицы (X T X). Также исследуют значения парных коэффициентов корреляции. Если же определитель матрицы межфакторной корреляции близок к единице, то мультколлинеарности нет.

Существуют различные подходы преодоления сильной межфакторной корреляции. Простейший из них – исключение из модели фактора (или факторов), в наибольшей степени ответственных за мультиколлинеарность при условии, что качество модели при этом пострадает несущественно (а именно, теоретический коэффициент детерминации -R 2 y(x1...xm) снизится несущественно).

С помощью какой меры невозможно избавиться от мультиколлинеарности?
a) увеличение объема выборки;
b) исключения переменных высококоррелированных с остальными;
c) изменение спецификации модели;
d) преобразование случайной составляющей.

Парные (линейные) и частные коэффициенты корреляции

Тесноту связи, например между переменными x и y по выборке значений (x i , y i), i=1,n , (1)
где x и y – средние значения, S x и S y – стандартные отклонения соответствующих выборок.

Парный коэффициент корреляции изменяется в пределах от –1 до +1. Чем ближе он по абсолютной величине к единице, тем ближе статистическая зависимость между x и y к линейной функциональной. Положительное значение коэффициента свидетельствует о том, что связь между признаками прямая (с ростом x увеличивается значение y), отрицательное значение – связь обратная (с ростом x значение y уменьшается).
Можно дать следующую качественную интерпретацию возможных значений коэффициента корреляции: если |r|<0.3 – связь практически отсутствует; 0.3≤ |r| < 0.7 - связь средняя; 0.7≤ |r| < 0.9 – связь сильная; 0.9≤ |r| < 0.99 – связь весьма сильная.
Для оценки мультиколлинеарности факторов используют матрицу парных коэффициентов корреляции зависимого (результативного) признака y с факторными признаками x 1 , x 2 ,…,x m , которая позволяет оценить степень влияния каждого показателя-фактора x j на зависимую переменную y, а также тесноту взаимосвязей факторов между собой. Корреляционная матрица в общем случае имеет вид
.
Матрица симметрична, на ее диагонали стоят единицы. Если в матрице есть межфакторный коэффициент корреляции r xjxi >0.7, то в данной модели множественной регрессии существует мультиколлинеарность.
Поскольку исходные данные, по которым устанавливается взаимосвязь признаков, являются выборкой из некой генеральной совокупности, вычисленные по этим данным коэффициенты корреляции будут выборочными, т. е. они лишь оценивают связь. Необходима проверка значимости, которая отвечает на вопрос: случайны или нет полученные результаты расчетов.
Значимость парных коэффициентов корреляции проверяют по t- критерию Стьюдента. Выдвигается гипотеза о равенстве нулю генерального коэффициента корреляции: H 0: ρ = 0. Затем задаются параметры: уровень значимости α и число степеней свободы v = n-2. Используя эти параметры, по таблице критических точек распределения Стьюдента находят t кр, а по имеющимся данным вычисляют наблюдаемое значение критерия:
, (2)
где r – парный коэффициент корреляции, рассчитанный по отобранным для исследования данным. Парный коэффициент корреляции считается значимым (гипотеза о равенстве коэффициента нулю отвергается) с доверительной вероятностью γ = 1- α, если t Набл по модулю будет больше, чем t крит.
Если переменные коррелируют друг с другом, то на значении коэффициента корреляции частично сказывается влияние других переменных.

Частный коэффициент корреляции характеризует тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Частный коэффициент корреляции оценивает тесноту связи между двумя переменными при фиксированном значении остальных факторов. Если вычисляется, например, r yx 1| x2 (частный коэффициент корреляции между y и x 1 при фиксированном влиянии x 2), это означает, что определяется количественная мера линейной зависимости между y и x 1 , которая будет иметь место, если устранить влияние x 2 на эти признаки. Если исключают влияние только одного фактора, получают частный коэффициент корреляции первого порядка.
Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции r yx 1| x2 получится меньше, чем соответствующий парный коэффициент r yx 1 , значит, взаимосвязь признаков y и x 1 в некоторой степени обусловлена воздействием на них фиксируемой переменной x 2 . И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная x 2 ослабляет своим воздействием связь y и x 1 .
Частный коэффициент корреляции между двумя переменными (y и x 2) при исключении влияния одного фактора (x 1) можно вычислить по следующей формуле:
. (3)
Для других переменных формулы строятся аналогичным образом. При фиксированном x 2
;
при фиксированном x 3
.
Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным v = n – l -2, где l – число фиксируемых факторов.

Пошаговая регрессия

Отбор факторов x 1 , x 2 , …,x m , включаемых в модель множественной регрессии, является одним из важнейших этапов эконометрического моделирования. Метод последовательного (пошагового) включения (или исключения) факторов в модель позволяет выбрать из возможного набора переменных именно те, которые усилят качество модели.
При реализации метода на первом шаге рассчитывается корреляционная матрица. На основе парных коэффициентов корреляции выявляется наличие коллинеарных факторов. Факторы x i и x j признаются коллинеарными, если r xjxi >0.7. В модель включают лишь один из взаимосвязанных факторов. Если среди факторов отсутствуют коллинеарные, то в модель могут быть включены любые факторы, оказывающие существенное влияние на y .

На втором шаге строится уравнение регрессии с одной переменной, имеющей максимальный по абсолютной величине парный коэффициент корреляции с результативным признаком.

На третьем шаге в модель вводится новая переменная, имеющая наибольшее по абсолютной величине значение частного коэффициента корреляции с зависимой переменной при фиксированном влиянии ранее введенной переменной.
При введении в модель дополнительного фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит, т. е. коэффициент множественной детерминации увеличивается незначительно, то ввод нового фактора признается нецелесообразным.

Пример №1 . По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x1 (% от стоимости фондов на конец года) и от ввода в действие новых основных фондов x2 (%).

Y X1 X2
6 10 3,5
6 12 3,6
7 15 3,9
7 17 4,1
7 18 4,2
8 19 4,5
8 19 5,3
9 20 5,3
9 20 5,6
10 21 6
10 21 6,3
11 22 6,4
11 23 7
12 25 7,5
12 28 7,9
13 30 8,2
13 31 8,4
14 31 8,6
14 35 9,5
15 36 10

Требуется:

  1. Построить корреляционное поле между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации. Выдвинуть гипотезу о тесноте и виде зависимости между показателями X1 и Y .
  2. Оценить тесноту линейной связи между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации с надежностью 0,9.
  3. Рассчитать коэффициенты линейного уравнения регрессии для зависимости выработки продукции на одного работника от удельного веса рабочих высокой квалификации.
  4. Проверить статистическую значимость параметров уравнения регрессии с надежностью 0,9 и построить для них доверительные интервалы.
  5. Рассчитать коэффициент детерминации. С помощью F -критерия Фишера оценить статистическую значимость уравнения регрессии с надежностью 0,9.
  6. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих.
  7. Рассчитать коэффициенты линейного уравнения множественной регрессии и пояснить экономический смысл его параметров.
  8. Проанализировать статистическую значимость коэффициентов множественного уравнения с надежностью 0,9 и построить для них доверительные интервалы.
  9. Найти коэффициенты парной и частной корреляции. Проанализировать их.
  10. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.
  11. С помощью F -критерия Фишера оценить адекватность уравнения регрессии с надежностью 0,9.
  12. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих, а ввод в действие новых основных фондов составляет 5%.
  13. Проверить построенное уравнение на наличие мультиколлинеарности по: критерию Стьюдента; критерию χ2. Сравнить полученные результаты.

Решение проводим с помощью калькулятора . Далее приводится ход решения п.13.
Матрица парных коэффициентов корреляции R:

- y x 1 x 2
y 1 0.97 0.991
x 1 0.97 1 0.977
x 2 0.991 0.977 1

При наличии мультиколлинеарности определитель корреляционной матрицы близок к нулю. Для нашего примера: det = 0.00081158 , что свидетельствует о наличии сильной мультиколлинеарности.
Для отбора наиболее значимых факторов x i учитываются следующие условия:
- связь между результативным признаком и факторным должна быть выше межфакторной связи;
- связь между факторами должна быть не более 0.7. Если в матрице есть межфакторный коэффициент корреляции r xjxi > 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.;
- при высокой межфакторной связи признака отбираются факторы с меньшим коэффициентом корреляции между ними.
В нашем случае r x 1 x 2 имеют |r|>0.7, что говорит о мультиколлинеарности факторов и о необходимости исключения одного из них из дальнейшего анализа.
Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых |r yxi | 0.3 – связь практически отсутствует; 0.3 ≤ |r| ≤ 0.7 - связь средняя; 0.7 ≤ |r| ≤ 0.9 – связь сильная; |r| > 0.9 – связь весьма сильная.
Проверим значимость полученных парных коэффициентов корреляции с помощью t-критерия Стьюдента. Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми.
Рассчитаем наблюдаемые значения t-статистики для r yx 1 по формуле:

где m = 1 - количество факторов в уравнении регрессии.

По таблице Стьюдента находим Tтабл
t крит (n-m-1;α/2) = (18;0.025) = 2.101
Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Рассчитаем наблюдаемые значения t-статистики для r yx 2 по формуле:

Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значимю
Таким образом, связь между (y и x x 1), (y и x x 2) является существенной.
Наибольшее влияние на результативный признак оказывает фактор x 2 (r = 0.99), значит, при построении модели он войдет в регрессионное уравнение первым.
Тестирование и устранение мультиколлинеарности .
Наиболее полным алгоритмом исследования мультиколлинеарности является алгоритм Фаррара-Глобера. С его помощью тестируют три вида мультиколлинеарности:
1. Всех факторов (χ 2 - хи-квадрат).
2. Каждого фактора с остальными (критерий Фишера).
3. Каждой пары факторов (критерий Стьюдента).
Проверим переменные на мультиколлинеарность методом Фаррара-Глоубера по первому виду статистических критериев (критерий "хи-квадрат").
Формула для расчета значения статистики Фаррара-Глоубера:
χ 2 = -ln(det[R])
где m = 2 - количество факторов, n = 20 - количество наблюдений, det[R] - определитель матрицы парных коэффициентов корреляции R.
Сравниваем его с табличным значением при v = m/2(m-1) = 1 степенях свободы и уровне значимости α. Если χ 2 > χ табл 2 , то в векторе факторов есть присутствует мультиколлинеарность.
χ табл 2 (1;0.05) = 3.84146
Проверим переменные на мультиколлинеарность по второму виду статистических критериев (критерий Фишера).

Проверим переменные на мультиколлинеарность по третьему виду статистических критериев (критерий Стьюдента). Для этого найдем частные коэффициенты корреляции.
Частные коэффициенты корреляции .
Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и x i) при условии, что влияние на них остальных факторов (x j) устранено.
На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.


Теснота связи низкая.
Определим значимость коэффициента корреляции r yx 1 /x 2 .Как видим, связь y и x 2 при условии, что x 1 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x 2 остается нецелесообразным.
Можно сделать вывод, что при построении регрессионного уравнения следует отобрать факторы x 1 , x 2 .

Пример №2 . По 30 наблюдениям матрица парных коэффициентов корреляции оказалась следующей:

y x 1 x 2 x 3
y 1,0
x 1 0,30 1,0
x 2 0,60 0,10 1,0
x 3 0,40 0,15 0,80 1,0
Оцените мультиколлинеарность факторов. Постройте уравнение регрессии в стандартном масштабе и сделайте выводы.
  • 4. Статистическое оценивание параметров плр по методу наименьших квадратов. Свойства мнк – оценок
  • Свойства мнк-оценок:
  • 5. Проверка качества множественной линейной регрессии: значимость параметров, доверительные интервалы, адекватность модели. Прогнозирование.
  • 6. Множественная линейная регрессия (млр). Классические предположения. Мнк-оценка параметров модели.
  • 7. Свойства мнк-оценок множественной линейной регрессии. Теорема Гаусса- Маркова.
  • 8. Проверка качества множественной линейной регрессии: значимость параметров, доверительные интервалы, адекватность модели. Прогнозирование.
  • 5. Коэф. Детерминации
  • Прогнозирование по модели множественной линейной регрессии
  • 9. Спецификация эконометрической модели: способы и диагностика отбора экзогенных переменных. Тесты Рамсея и Амемья.
  • Критерий Рамсея (Ramsey):
  • 10. Спецификация эконометрической модели: выбор формы зависимости нелинейной модели
  • Принципы спецификаций
  • 11. Проблема наличия мультиколлинеарности. Последствия наличия и диагностики мультиколлинеарности.
  • Методы диагноза мультиколлинеарности:
  • 12. Методы устранения мультиколлинеарности. Метод главных компонент. Гребневая регрессия.
  • 13. Проблемы гетероскедастичности модели. Критерии ее диагностики.
  • 1. Критерий Парка (Park).
  • 2. Критерий Голдфелда-Кандта (Goldfeld-Quandt).
  • 3. Критерий Бриша-Пагана (Breusch-Pagan).
  • 4. Критерий Вайта (White).
  • 14. Обобщенный мнк (омнк). Свойства оценок млр по омнк. Взвешенный мнк в задаче оценивания параметров модели. Свойства оценок по взвешенному мнк.
  • Вопрос 15. Проблема автокорреляции остатков модели. Последствия автокорреляции при использовании модели.
  • Причины автокорреляции остатков
  • Последствия автокорреляции:
  • 16. Критерий диагностики автокорреляции Дарбина-Уотсона
  • 17.Методы устранения автокорреляции. Процедуры оценивания Кохрейна-Оркатта и Хильдрета-Лу
  • 18. Модели с распределенными лагами: структура лагов по Койку: Частные случаи (модель с неполной корректировкой и адаптивных ожиданий)
  • 19 Модели с распределенными лагами: линейно-арифметическая структура лагов и полиномиальная структура лагов по Алмон
  • 20. Тест h-Дарбина и множественный тест Лагранжа проверки автокорреляции в лаговых моделях
  • 21. Понятие временного ряда (вр). Модель вр, основные задачи анализа вр. Методы сглаживания вр (скользящего среднего, экспоненциального сглаживания, последовательных разностей)
  • 22 Стационарность временного ряда (вр). Характеристики корреляции уровней вр.
  • 23 Стационарные модели временных рядов: авторегрессии, скользящего среднего, арсс
  • 24. Нестационарная модель арисс. Оценка параметров модели.
  • 28. Прогнозирование временных рядов. Показатели точности прогнозов.
  • 30. Тест Чоу диагностики включения фиктивных переменных в эконометрическую модель.
  • 32. Системы одновременных эконометрических уравнений (соу). Структурная и приведенная форма соу (графическое и матричное представление).
  • 33. Проблемы идентификации систем одновременных уравнений (соу). Идентифицируемость уравнений соу (порядковый и ранговый критерии)
  • 34. Методы оценивания систем одновременных уравнений: косвенный мнк, двухшаговый мнк. Применимость и свойства оценок
  • 35. Современное состояние эконометрики. Примеры больших эконометрических моделей
  • 11. Проблема наличия мультиколлинеарности. Последствия наличия и диагностики мультиколлинеарности.

    Если имеется линейная связь экзогенных переменных , например , то МНК-оценки не будут существовать, т.к. не существует обратная к матрице, которая будет вырожденной. Такая ситуация в эконометрике носит название проблемымультиколлинеарности.

    Причины мультиколлинеарности:

    неправильная спецификация модели

    небрежное проведение сбора статданных (использование повторных наблюдений).

    Различают явную и неявную мультиколлинеарность.

    Явная – известна точная линейная зависимость между переменными модели.

    Например, если в модель инвестиционного процесса включить номинальную и реальную процентные ставки, т.е.

    где известна зависимость реальной и номинальной ставок и темпа инфляции

    то имеет место явная мультиколлинеарность.

    Неявная возникает, когда существует стохастическая (неопределенная, случайная) линейная зависимость между экзогенными переменными.

    преобладает неявная, ее наличие характеризуют 6 признаков :

    1. МНК-оценки параметров модели теряют свойства несмещенности .

    2. Дисперсия МНК-оценок возрастает:

    Вследствие того, что, коэффициент корреляции, тогда, что влечет

    3. Происходит уменьшение t -статистик, являющихся индикаторами значимости параметров:

    4. Коэффициент детерминации уже не является мерой адекватности модели, так как низкие значения t -статистик влекут недоверие к подобранной модели зависимости.

    5. Оценки параметров при неколлинеарных экзогенных переменных становятся очень чувствительными к изменению данных.

    6. Оценки параметров при неколлинеарных экзогенных переменных становятся незначимыми.

    Методы диагноза мультиколлинеарности:

    Шаг 1. В модели (исходной) множественной линейной регрессии переберем все подмодели, в которых какая-либо экзогенная переменная становится эндогенной, т.е.

    Шаг 2. Вычисляем коэффициенты детерминации всех полученных моделей , на основе которых рассчитаем так называемые инфляционные факторы:

    Если , то делают вывод о существовании мультиколлинеарности.

    а) в модели не изменяют никакую структуру, а, применяя компьютерный МНК, анализируют наличие проблемы мультиколлинеарности по визуальным методам.

    б) улучшают спецификацию модели, устраняя из исходной модели коллинеарные экзогенные переменные.

    в) увеличивают объем статистических данных.

    г) объединяют коллинеарные переменные и включают в модель общую экзогенную переменную.

    12. Методы устранения мультиколлинеарности. Метод главных компонент. Гребневая регрессия.

    Если основная задача модели − прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации R 2 (≥ 0.9) наличие мультиколлинеарности зачастую не сказывается на прогнозных качествах модели.

    Если целью исследования является определение степени влияния каждой из объясняющих переменных на зависимую переменную, то наличие мультиколлинеарности исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность представляется серьезной проблемой.

    Отметим, что единого метода устранения мультиколлинеарности, годного в любом случае, не существует. Это связано с тем, что причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки.

    МЕТОДЫ:

    Исключение переменной(ых) из модели

    Например, при исследовании спроса на некоторое благо в качестве объясняющих переменных можно использовать цену данного блага и цены заменителей данного блага, которые зачастую коррелируют друг с другом. Исключив из модели цены заменителей, мы, скорее всего, допустим ошибку спецификации. Вследствие этого возможно получение смещенных оценок и осуществление необоснованных выводов. в прикладных эконометрических моделях желательно не исключать объясняющие переменные до тех пор, пока коллинеарность не станет серьезной проблемой.

    Получение дополнительных данных или новой выборки

    Иногда достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано с серьезными издержками. Кроме того, данный подход может усилить автокорреляцию. Эти проблемы ограничивают возможность использования данного метода.

    Изменение спецификации модели

    В ряде случаев проблема мультиколлинеарности может быть решена изменением спецификации модели: либо изменением формы модели, либо добавлением объясняющих переменных, которые не учтены в первоначальной модели, но существенно влияющие на зависимую переменную.

    Использование предварительной информации о некоторых параметрах

    Иногда при построении модели множественной регрессии можно воспользоваться некоторой предварительной информацией, в частности, известными значениями некоторых коэффициентов регрессии. Вполне вероятно, что значения коэффициентов, полученные для каких-либо предварительных (обычно более простых) моделей, либо для аналогичной модели по ранее полученной выборке, могут быть использованы для разрабатываемой в данный момент модели.

    Для иллюстрации приведем следующий пример. Строится регрессия. Предположим, что переменные X1 и X2 коррелированы. Для ранее построенной модели парной регрессии Y = γ0 + γ1X1+υ был определен статистически значимый коэффициент γ1 (для определенности пусть γ1 = 0.8), связывающий Y с X1. Если есть основания думать, что связь между Y и X1 останется неизменной, то можно положить γ1 = β1 = 0.8. Тогда:

    Y = β0 + 0.8X1 + β2X2 + ε. ⇒ Y – 0.8X1 = β0 + β2X2 + ε.

    Уравнение фактически является уравнением парной регрессии, для которого проблема мультиколлинеарности не существует.

    Ограниченность использования данного метода обусловлена:

      получение предварительной информации зачастую затруднительно,

      вероятность того, что выделенный коэффициент регрессии будет одним и тем же для различных моделей, не высока.

    Преобразование переменных

    В ряде случаев минимизировать либо вообще устранить проблему мультиколлинеарности можно с помощью преобразования переменных.

    Например, пусть эмпирическое уравнение регрессии имеет вид Y = b0 + b1X1 + b2X2

    причем X1 и X2 − коррелированные переменные. В этой ситуации можно попытаться определять регрессионные зависимости относительных величин. Вполне вероятно, что в аналогичных моделях, проблема мультиколлинеарности будет отсутствовать.

    Метод главных компонент является одним из основных методов исключения переменных из модели множественной регрессии.

    Данный метод используется для исключения или уменьшения мультиколлинеарности факторных переменных модели регрессии. Суть метода : сокращение числа факторных переменных до наиболее существенно влияющих факторов . Это достигается с помощью линейного преобразования всех факторных переменных xi (i=0,…,n) в новые переменные, называемые главными компонентами, т. е. осуществляется переход от матрицы факторных переменных Х к матрице главных компонент F. При этом выдвигается требование, чтобы выделению первой главной компоненты соответствовал максимум общей дисперсии всех факторных переменных xi (i=0,…,n), второй компоненте – максимум оставшейся дисперсии, после того как влияние первой главной компоненты исключается и т. д.

    Если ни одну из факторных переменных, включённых в модель множественной регрессии, исключить нельзя, то применяют один из основных смещённых методов оценки коэффициентов модели регрессии – гребневую регрессию или ридж (ridge). При использовании метода гребневой регрессии ко всем диагональным элементам матрицы (ХТХ) добавляется небольшое число τ: 10-6 ‹ τ ‹ 0.1. Оценивание неизвестных параметров модели множественной регрессии осуществляется по формуле:

    где ln – единичная матрица.

    0

    Министерство образования и науки Российской Федерации

    Федеральное государственное бюджетное образовательное учреждение

    высшего образования

    ТВЕРСКОЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

    Кафедра «Бухгалтерский учет и финансы»

    КУРСОВОЙ ПРОЕКТ
    по дисциплине «Эконометрика»

    “Исследование мультиколлинеарности в эконометрических моделях: исключение переменной (ых) из модели”

    Руководитель работы:

    канд. тех. наук, доцент

    Коновалова

    Исполнитель:

    студент группы ЭК-1315 ЭПО

    Тверь, 2015

    Введение…………………………………………………………………………...3

    1.Аналитическая часть……………………………………………………………4

    1.1. Обобщенные признаки мультиколлинеарности в эконометрических моделях…………………………………………………………………………….4

    1.2. Основные способы устранения мультиколлинеарности в эконометрических моделях…………..…………………………………………..7

    2.Проектная часть………………………………………………………………..11

    2.1. Информационно-методическое обеспечение эконометрического исследования………………………………………………………………….11

    2.2. Пример эконометрического исследования…………………………….17

    Заключение ……………………………………………………………………....30

    Список использованных источников…………………………………………...31

    Введение

    Актуальность темы работы “Исследование мультиколлинеарности в эконометрических моделях: исключение переменной (ых) из модели” обусловлена тем, что в наше время данная проблема часто встречается в прикладных эконометрических моделях.

    Предмет исследования - проблема мультиколлинеарности. Объектом исследования выступают эконометрические модели.

    Основная цель работы - разработка проектных решений по информационно-методическому обеспечению эконометрического исследования.

    Для достижения цели поставлены и решены следующие основные задачи исследования:

    1. Обобщение признаков мультиколлинеарности в эконометрических моделях.
    2. Выявление основных способов устранения мультиколлинеарности.

    3.Разработка информационно-методического обеспечения эконометрического исследования.

    1. Аналитическая часть

    1.1. Обобщенные признаки мультиколлинеарности в эконометрических моделях

    Мультиколлинеарность — в эконометрике (регрессионный анализ) — наличие линейной зависимости между объясняющими переменными (факторами) регрессионной модели. При этом различают полную коллинеарность , которая означает наличие функциональной (тождественной) линейной зависимости, и частичную или просто мультиколлинеарность — наличие сильной корреляции между факторами .

    Полная коллинеарность приводит к неопределенности параметров в линейной регрессиионной модели независимо от методов оценки. Рассмотрим это на примере следующей линейной модели:

    Пусть факторы этой модели тождественно связаны следующим образом: . Тогда рассмотрим исходную линейную модель, в которой к первому коэффициенту добавим произвольное число a , а из двух других коэффициентов это же число вычтем. Тогда имеем (без случайной ошибки):

    Таким образом, несмотря на относительно произвольное изменение коэффициентов модели получается та же модель. Такая модель принципиально неидентифицируема. Неопределенность существует уже в самой модели. Если рассмотреть 3-мерное пространство коэффициентов, то в этом пространстве вектор истинных коэффициентов в данном случае не единственный, а представляет собой целую прямую линию. Любая точка этой прямой — истинный вектор коэффициентов .

    Если полная коллинеарность приводит к неопределенности значений параметров, то частичная мультиколлинеарность приводит к неустойчивости их оценок . Неустойчивость выражается в увеличении статистической неопределенности — дисперсии оценок. Это означает, что конкретные результаты оценки могут сильно различаться для разных выборок несмотря на то, что выборки однородны.

    Как известно ковариационная матрица оценок параметров множественной регрессии методом наименьших квадратов равна. Тем самым чем «меньше» ковариационная матрица (ее определитель), тем «больше» ковариационная матрица оценок параметров, и, в частности, больше диагональные элементы этой матрицы, то есть дисперсии оценок параметров. Для большей наглядности рассмотрим на примере двухфакторной модели:

    Тогда дисперсия оценки параметра, например, при первом факторе равна:

    где — выборочный коэффициент корреляции между факторами.

    Здесь наглядно видно, что чем больше по модулю корреляция между факторами, тем больше дисперсия оценок параметров. При (полная коллинеарность) дисперсия стремится к бесконечности, что соответствует сказанному ранее.

    Таким образом, оценки параметров получаются неточными, а значит сложно будет дать интерпретацию влияния тех или иных факторов на объясняемую переменную. При этом на качество модели в целом мультиколлинеарность не сказывается — она может признаваться статистически значимой, даже тогда, когда все коэффициенты незначимы (это один из признаков мультиколлинеарности).

    В линейных моделях коэффициенты корреляции между параметрами могут быть положительными и отрицательными. В первом случае увеличение одного параметра сопровождается увеличением и другого параметра. Во втором случае при повышении одного параметра происходит снижение другого.

    Исходя из этого, можно установить допустимую и недопустимую мультиколлинеарность. Недопустимая мультиколлинеарность будет тогда, когда между факторами 1 и 2 существует значительная положительная корреляция и при этом влияние каждого фактора на корреляционную связь с функцией у однонаправленное, то есть увеличение обоих факторов 1 и 2 ведёт к увеличению или снижению функции у . Другими словами, оба фактора действуют на функцию у одинаково, и значительная положительная корреляции между ними может позволить исключить один из них.

    Допустимая мультиколлинеарность такова, при которой факторы действуют на функцию у неодинаково. Здесь возможны два случая:

    а) при значительной положительной корреляции между факторами влияние каждого фактора на корреляционную связь с функцией у разнонаправленное, т.е. увеличение одного фактора ведёт к росту функции, а увеличение другого фактора приводит к уменьшению функции у.

    б) при значительной отрицательной корреляции между факторами увеличение одного фактора сопровождается уменьшением другого фактора и это делает факторы разнозначными, поэтому возможен любой знак влияния факторов на функцию у .

    На практике выделяют некоторые наиболее характерные признаки мультиколлинеарности.: 1. Небольшое изменение исходных данных (например, добавление новых наблюдений) приводит к существенному изменению оценок коэффициентов модели. 2. Оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (высокое значение коэффициента детерминации R 2 и соответствующей F-статистики). 3. Оценки коэффициентов имеют неправильные с точки зрения теории знаки или неоправданно большие значения.

    Косвенными признаками мультиколлинеарности являются высокие стандартные ошибки оценок параметров модели, малые t-статистики (то есть незначимость коэффициентов), неправильные знаки оценок, при том, что модель в целом признается статистически значимой (большое значение F-статистики). О мультиколлинеарности также может свидетельствовать сильное изменение оценок параметров от добавления (или удаления) выборочных данных (если соблюдены требования достаточной однородности выборки).

    Для обнаружения мультиколлинеарности факторов можно проанализировать непосредственно корреляционную матрицу факторов. Уже наличие больших по модулю (выше 0,7-0,8) значений коэффициентов парной корреляции свидетельствует о возможных проблемах с качеством получаемых оценок.

    Однако, анализ парных коэффициентов корреляции недостаточен. Необходимо проанализировать коэффициенты детерминации регрессий факторов на остальные факторы (). Рекомендуется рассчитывать показатель. Слишком высокие значения последнего означают наличие мультиколлинеарности.

    Таким образом, главные критерии обнаружения мультиколлинеарности заключаются в следующем: высокий R 2 при всех незначимых коэффициентах,высокие парные коэффициенты корреляции,высокие значения коэффициента VIF .

    1.2. Основные способы устранения мультиколлинеарности в эконометрических моделях

    Прежде чем указать основные методы устранения мультиколлинеарности, отметим, что в ряде случаев мультиколлинеарность не является серьёзной проблемой, предполагающей существенные усилия по ее выявлению и устранению. В основном всё зависит от целей исследования.

    Если основная задача модели - прогноз будущих значений регрессанда, то при достаточно большом коэффициенте детерминации R2 (> 0,9) наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели. Хотя это утверждение будет обоснованным лишь в том случае, что и в будущем между коррелированными регрессорами будут сохраняться те же отношения, что и ранее. Если же целью исследования является определение степени влияния каждого из регрессоров на регрессанд, то наличие мультиколлинеарности, приводящее к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между регрессорами. В этой ситуации мультиколлинеарность является серьезной проблемой.

    Отметим, что единого метода устранения мультиколлинеарности, годного в любом случае, не существует. Это связано с тем, что причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки .

    На практике выделяют основные методы устранения мультиколлинеарности:

    1. Исключение регрессоров из модели простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных регрессоров. Однако необходима определенная осмотрительность при применении данного метода. В этой ситуации возможны ошибки спецификации. Например, при исследовании спроса на некоторое благо в качестве объясняющих переменных можно использовать цену данного блага и цены заменителей данного блага, которые зачастую коррелируют друг с другом. Исключив из модели цены заменителей, мы, скорее всего, допустим ошибку спецификации. Вследствие этого можно получить смещенные оценки и сделать необоснованные выводы. Таким образом, в прикладных эконометрических моделях желательно не исключать регрессоры до тех пор, пока их коллинеарность не станет серьезной проблемой.
    2. Получение дополнительных данных или новой выборки поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности вообще не будет либо она не будет столь серьезной. Иногда для уменьшения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано с серьезными издержками. Кроме того, такой подход может усилить автокорреляцию. Эти проблемы ограничивают возможность использования данного метода.

    III. Изменение спецификации модели В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются новые регрессоры, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную. Если данный метод имеет основания, то его использование уменьшает сумму квадратов отклонений, тем самым, сокращая стандартную ошибку регрессии. Это приводит к уменьшению стандартных ошибок коэффициентов.

    1. Преобразование переменных в ряде случаев минимизировать либо вообще устранить проблему мультиколлинеарности можно только с помощью преобразования переменных. Исходные данные в каждом наблюдении делятся на значения одного из зависимых регрессоров в данном наблюдении. Применение метода главных компонент к факторам модели позволяет преобразовать исходные факторы и получить совокупность ортогональных (некоррелированных) факторов. При этом наличие мультиколлинеарности позволит ограничиться небольшим количеством главных компонент. Тем не менее, может возникнуть проблема содержательной интерпретации главных компонент .

    Если по всем признакам имеется мультиколлинеарность, то среди эконометристов есть разные мнения на этот счет. При столкновении с проблемой мультиколлинеарности может возникнуть естественное желание отбросить «лишние» независимые переменные, которые, возможно, служат ее причиной. Однако следует помнить, что при этом могут возникнуть новые трудности. Во-первых, далеко не всегда ясно, какие переменные являются лишними в указанном смысле.

    Мультиколлинеарность означает лишь приблизительную линейную зависимость между факторами, но это не всегда выделяет «лишние» переменные. Во-вторых, во многих ситуациях удаление каких-либо независимых переменных может значительно отразиться на содержательном смысле модели. Наконец, отбрасывание так называемых существенных переменных, т.е. независимых переменных, которые реально влияют на изучаемую зависимую переменную, приводит к смещению коэффициентов модели. На практике, обычно при обнаружении мультиколлинеарности убирают наименее значимый для анализа фактор, а затем повторяют расчеты.

    Таким образом, на практике выделяют основные методы устранения мультиколлинеарности: изменение или увеличение выборки, исключение одной из переменной, преобразование мультиколлинеарных переменных (использовать нелинейные формы, использовать агрегаты (линейные комбинации нескольких переменных), использовать первые разности вместо самих переменных. Однако если мультиколлинеарность не устраняется, можно её игнорировать с учетом целесообразие исключения.

    1. Проектная часть

    2.1. Информационно-методическое обеспечение эконометрического исследования

    Информационное обеспечение эконометрического исследования включает следующие сведения:

    Входные сведения:

    • статистические данные по социально-экономическому показателю, определяемому как зависимая переменная (факторы - результата);
    • статистические данные по социально-экономическим показателям, определяемым как объясняющие переменные (факторы - признака);

    Промежуточные сведения:

    • модель уравнения регрессии, оцененное уравнение регрессии, показатели качества и заключение о качестве уравнения регрессии, заключение о наличии (отсутствии) проблемы мультиколлинеарности, рекомендации по применению модели;

    Результативные сведения:

    • оцененное уравнение регрессии, заключение о качестве уравнения регрессии, заключение о наличии (отсутствии) проблемы мультиколлинеарности, рекомендации по применению модели.

    Методика эконометрического исследования заключается в следующем: спецификация; параметризация, верификация, дополнительное исследование, прогнозирование.

    1.Спецификация модели уравнения регрессии включает в себя графический анализ корреляционной зависимости зависимой переменной от каждой объясняющей переменной. По результатам графического анализа делается заключение о модели уравнения регрессии линейного или нелинейного видов. Для проведения графического анализа чаще всего рекомендуют использовать инструмент «Точечная диаграмма» MsExcel. В результате этого этапа определяется модель уравнения регрессии, причем в случае нелинейного вида также определяются способы ее линеаризации.

    2.Параметризация уравнения регрессии включает в себя оценку параметров регрессии и их социально-экономическую интерпретацию. Для параметризации используют инструмент «Регрессия» в составе надстроек «Анализ данных» MsExcel. По результатам автоматизированного регрессионного анализа (столбец «Коэффициенты») определяются параметры регрессии, также дается их интерпретация согласно типовому правилу:

    Bj представляет собой величину, на которую в среднем изменяется значение переменной Y при увеличении независимой переменной Xj на единицу при прочих равных условиях.

    Свободный член уравнения регрессии равен предсказанному значению зависимой переменной Y в случае, когда все независимые переменные равны нулю.

    3.Верификация уравнения регрессии проводится на основе результатов автоматизированного регрессионного анализа (этап 2) по следующим показателям: «R-квадрат», «Значимость F», «P-значение» (по каждому параметру регрессии), а также по графикам подбора и остатков.

    Определяется значимость коэффициентов и оценивается качество модели. Для этого рассматривается “Значимость F”, “P-Значение” и “R-квадрат”. Если “P-значение” меньше статического уравнения значимости, то это говорит о значимости коэффициента. Если “R-квадрат” больше 0.6, то это означает, модель регрессии хорошо описывает поведение зависимой переменной Y от факторов переменных.

    Если “Значимость F” меньше статического уравнения значимости, то коэффициент детерминации(R-квадрат) признается условно статистически значимым.

    График остатков позволяет оценить вариации ошибок. Если нет особых различий между ошибками, соответствующими разным значениям Xi, то есть вариации ошибок при разных значениях Хi приблизительно одинаковы и можно предположить, отсутствие проблем. График подбора позволяет сформировать суждения о базисном, предсказанных и факторных значений.

    В заключение формируется суждение о качестве уравнения регрессии.

    1. Дополнительное исследование.

    4.1.Обнаружение первого признака мультиколлинеарности. На основе полученных в п.2-3 результатов регрессионного анализа проверяется ситуации, при которой коэффициент детерминации имеет высокое значение (R 2 >0.7) и статически значим (Значимость F <0,05), и хотя бы один из коэффициентов регрессии не может быть признан статистически значим (P-значение >0,05).При обнаружении, такой ситуации, делается вывод о предположении мультиколлинеарности.

    4.2.Обнаружение второго признака мультиколлинеарности. На основе расчетов коэффициентов корреляции между факторными переменными определяется существенная взаимосвязь отдельных факторов. Для расчетов в MS Excel, целесообразно использовать инструмент “Анализ данных / Корреляция”. По значениям коэффициента кореляции делаются выводы: чем ближе (r) к крайним точкам (±1), тем больше степень линейной связи, если коэффициент корреляции меньше 0,5, то считается, что связь слабая. Наличие мультиколлинеарности предполагается в следующем случае, если хотя бы между двумя переменными имеется существенный коэффициент корреляции (т.е. больше 0,7 по модулю).

    4.3.Обнаружение третьего признака мультиколлинеарности. На основе оценки вспомогательных регрессий между факторными переменными, причём между переменными где имеется существенный коэффициент корреляции (п.4.2), делается вывод о наличии мультиколлинеарности, если хотя бы в одной вспомогательной регрессии является существенным и значимым. Метод дополнительных регрессий коэффициента детерминации заключается в следующем: 1) cтроятся уравнения регрессии, которые связывают каждый из регрессоров со всеми оставшимися; 2) вычисляются коэффициенты детерминации R 2 для каждого уравнения регрессии; 3) если уравнение и коэффициент детерминации признаётся статистически значимым, значит данный регрессор приводит к мультиколлинеарности.

    4.4.Обобщение суждений.

    На основе п.4.1-4.3 формируется суждение о наличии / отсутствии мультиколлинеарности и регрессоров, приводящих к мультиколлинеарности.

    Далее формируется направления использования модели (в случае игнорирования или отсутствие проблемы мультиколлинеарности) или рекомендации по устранению мультиколлинеарности (на практике, исключение переменной).

    При исключении переменной целесообразно использовать правило:

    Определяется коэффициент детерминации для первоначально построенного по n наблюдениям уравнения регрессии (R 2 1);

    Исключением из рассмотрения (k) последних переменных формируется уравнение для оставшихся факторов по первоначальным n наблюдениям и определяется для него коэффициент детерминации (R 2 2);

    Рассчитывается F-статистика: где (R 1 2 -R 2 2)- потеря уравнения в качества результате отбрасывания к переменных, (K) - число дополнительно появившихся степеней свободы, (1- R 1 2)/(n-m-l) - необъясненная дисперсия первоначального уравнения;

    Определяется критическое значение F a ,k ,n- m -1 по таблицам критических точек распределения Фишера при заданном уровне значимости а и степенях свободы v 1 =k, v 2 =n-m-l;

    Формируется суждения о целесообразности исключении по правилу: исключение (одновременное) из уравнения k переменных считается нецелесообразным при F > F a , k , n- m - 1 , в противном случае - такое исключение допустимо.

    При устранении переменной, получаемая модель анализируется согласно, п.п.3-4; и сравнивается с исходной моделью, в результате выбирается «лучшая». На практике, так как мультиколлинеарность не влияет на прогнозные качества модели, эта проблема может игнорироваться.

    5.Прогнозирование проводится по исходной/«лучшей» модели, выбранной в пункте 4.4, по схеме ретроспективного прогноза, при котором для прогноза используется последняя 1/3 наблюдений.

    5.1. Точечный прогноз. Фактические значения факторных переменных в прогнозном периоде считаются предсказанными, прогнозные значения результативной переменной определяются как предсказанные по исходной/«лучшей» модели на основе факторных переменных в прогнозном периоде. С помощью инструмента Microsoft Excel «График» строится график фактических и предсказанных згачений результативной переменной по наблюдениям и делается вывод о близости фактических значений к прогнозным.

    5.2. Интервальный прогноз предполагает расчет стандартных ошибок предсказания (с помощью фиктивных переменных Салкевера) и верхних и нижних границ прогнозных значений.

    С помощью инструмента Microsoft Excel «Анализ данных/Регрессия» строится регрессия для совокупного набора данных выборки и прогнозного периода, но с добавлением фиктивных переменных D 1 , D 2 , ..., D p . При этом D i = 1 только для момента наблюдения (n + i), для всех других моментов D i =0. Тогда коэффициент при фиктивной переменной D i равен ошибке предсказания в момент (n + i), а стандартная ошибка коэффициента равна стандартной ошибке предсказания (S i). Так, проводится автоматизированный регрессионный анализ модели, где в качестве значений X используются совокупные (выборочные и прогнозные) значения факторных переменных и значения фиктивных переменных Салкевера, в качестве значений Y - совокупные (выборочные и прогнозные) значения результативной переменной.

    Полученные стандартные ошибки коэффициентов при фиктивных переменных Салкевера равны стандартным ошибкам предсказания. Тогда границы интервального прогноза рассчитываются по следующим формулам: Ymin n + i =Yэмп n + i -S i *t кр, Ymax n + i =Yэмп n + i +S i *t кр, где t кр - критическое значение распределения Стьюдента, определяемое по формуле « =СТЬЮРАСПОБР(0,05; n-m-1)», m- количество объясняющих факторов в модели (Y * t), Yэмп n + i - прогнозные значения результативной переменной (п.5.1).

    С помощью инструмента Microsoft Excel «График» строится график по фактическим и предсказанным значениям результативной переменной, верхним и нижним границам прогноза по наблюдениям. Делается вывод о вписываемости фактических значений результативной переменной в границы интервального прогноза.

    5.3. Оценка устойчивости модели с помощью теста ЧОУ проводится следующим образом:

    а) с помощью инструмента Microsoft Excel «Анализ данных/Регрессия» строится регрессия, где в качестве значений X принимаются совокупные (выборочные и прогнозные) значения факторных переменных, а в качестве значений Y - совокупные (выборочные и прогнозные) значения результативной переменной. По данной регрессии определяется сумма квадратов остатков S;

    б) по регрессии п.5.2 с фиктивными переменными Салкевера определяется сумма квадратов остатков Sd;

    в) рассчитывается и оценивается значение Fстатистики по формуле:

    где p- количество прогнозных шагов. Если полученное значение больше критического значения F кр, определяемого по формуле «=FРАСПОБР(0,05; p; n-m-1)», тогда гипотеза о стабильности модели в прогнозном периоде отклоняется, в противном случае - принимается.

    5.4.Обобщение суждений о прогнозных качествах модели на основе п.5.1-5.3, в результате формируется заключение о прогнозном качестве модели и рекомендации по применению модели для прогнозирования.

    Так, разработанное информационно-методическое обеспечение соответствует основным задачам эконометрического исследования проблемы мультиколлинеарности в моделях множественной регрессии.

    2.2. Пример эконометрического исследования

    Исследование проводится на основе данных, отражающих реальные макроэкономические показатели РФ за период 2003-2011 г.г. (табл. 1), согласно методике п.2.1.

    Таблица 1

    Расходы дом. хозяйств (млрд.руб)[Y]

    Численность населения (млн. чел)

    Денежная масса (млрд.руб.)

    Уровень безработицы (%)

    1.Спецификация модели уравнения регрессии включает графический анализ корреляционной зависимости зависимой переменной Y (Расходы дом. хозяйств от объясняющей переменной X 1 (Численность населения) (рис. 1), корреляционной зависимости зависимой переменной Y (Расходы дом. хозяйств от объясняющей переменной X 2 (Денежная масса) (рис. 2), корреляционной зависимости зависимой переменной Y (Расходы дом. хозяйств от объясняющей переменной X 3 (Уровень безработицы) (рис. 3).

    График корреляционной зависимости между Y и X 1 , представленный на рисунке 1, отражает существенную (R 2 =0,71) обратную линейную зависимость Y от X 1 .

    График корреляционной зависимости между Y и X 2 , представленный на рисунке 2, отражает существенную (R 2 =0,98) прямую линейную зависимость Y от X 2 .

    График корреляционной зависимости между Y и X 3 , представленный на рисунке 3, отражает несущественную (R 2 =0,15) обратную линейную зависимость Y от X 3 .

    Рисунок 1

    Рисунок 2

    Рисунок 3

    В результате можно специфицировать модель линейной множественной регрессии Y=b 0 +b 1 X 1 +b 2 X 2 + b 3 X 3 .

    2.Параметризация уравнения регрессии проводится с использованием инструмента «Регрессия» в составе надстроек «Анализ данных» MsExcel (рис. 4).

    Рисунок 4

    Оцененное уравнение регрессии имеет вид:

    233983,8- 1605,6Х 1 + 1,0Х 2 + 396,22X 3 .

    При этом коэффициенты регрессии интерпретируются следующим образом: при увеличении численности населения на 1 млн. чел расходы дом. хозяйств уменьшаются на 1605,6 млрд. руб.; при увеличении денежной массы на 1 млрд.руб. расходы дом. хозяйств увеличатся на 1,0 млрд.руб.; при увеличении уровня безработицы на 1%, расходы дом. хозяйств будут увеличиваться на 396,2 млрд.руб. При нулевых значениях факторных переменных расходы дом. хозяйств составят 233983,8 млрд.руб, что, возможно, не имеет экономической интерпретации.

    3.Верификация уравнения регрессии проводится на основе результатов автоматизированного регрессионного анализа (этап 2).

    Так, «R-квадрат» равен 0,998, т.е. уравнение регрессии описывает поведение зависимой переменной на 99%, что говорит о высоком уровне описания уравнения. «Значимость F» равна 2,14774253442155E-07, что говорит о том, что «R-квадрат» значим. «Р-Значение» для b 0 равно 0,002, что говорит о том, что данный параметр значим. «Р-Значение» для b 1 равно 0,002, что говорит о том, что данный коэффициент значим. «Р-Значение» для b 2 равно 8,29103190343224E-07, что говорит о том, что данный коэффициент значим. «Р-Значение» для b 3 равно 0,084, что говорит о том, что данный коэффициент не значим.

    На основе графиков остатков остатки е представляют собой случайные величины.

    На основе графиков подбора делается заключение о близости фактических и предсказанных значений по модели.

    Так, модель имеет хорошее качество, при этом b 3 не значим, поэтому можно предположить наличие мультиколлинеарности.

    4.Дополнительное исследование.

    4.1. Обнаружение первого признака мультиколлинеарности. По данным регрессионного анализа (рисунка 5) можно сказать, что имеется первый признак мультиколлинеарности, так как выявляется высокий и значимый R 2 , выявлено, что уравнение имеет высокий коэффициент детерминации, а также один из коэффициентов не значимый. Это позволяет предположить наличие мультиколлинеарности.

    4.2.Обнаружение второго признака мультиколлинеарности.

    На основе расчетов коэффициентов корреляции между факторными переменными определяется существенная взаимосвязь отдельных факторов. (табл.2). Наличие мультиколлинеарности предполагается в следующем случае, если хотя бы между двумя переменными имеется существенный коэффициент корреляции (т.е. больше 0,5 по модулю).

    Таблица 2

    [ X2]

    [ X3]

    [ X2]

    [ X3]

    В нашем случае существует коэффициент корреляции между Х 1 и Х 2 (-0,788), что говорит о сильной зависимости между переменными X 1, X 2 , так же существует коэффициент корреляции между Х 1 и Х 3 (0,54), что говорит о сильной зависимости между переменными X 1, X 3.

    В результате можно предположить наличие мультиколлинеарности.

    4.3.Обнаружение третьего признака мультиколлинеарности.

    Так как в п.4.2 обнаружена сильная зависимость между переменными X 1 и X 2 , далее анализируется вспомогательная регрессия между этими переменными (рис. 5).

    Рисунок 5

    Так как «Значимость F» равна 0,01, что говорит о том, что «R-квадрат» и вспомогательная регрессия значимы, поэтому можно предположить, что регрессор X 2 приводит к мультиколлинеарности.

    Так как в п.4.2 обнаружена выше среднего уровня зависимость между переменными X 1 и X 3 , далее анализируется вспомогательная регрессия между этими переменными (рис. 6).

    Рисунок 6

    Так как «Значимость F» равна 0,13, что говорит о том, что «R-квадрат» и вспомогательная регрессия не значимы, поэтому можно предположить, что регрессор X 3 не приводит к мультиколлинеарности.

    Так, согласно третьему признаку, можно предположить наличие мультиколлинеарности.

    4.4.Обобщение суждений.

    По данным анализа п.4.1-4.3, обнаружены все три признака мультиколлинеарности, поэтому ее можно предположить с высокой вероятностью. При этом несмотря на предположение в п.4.3 относительно регрессора, приводящего к мультиколлинеарности, можно рекомендовать исключение X 3 из исходной модели, т.к. X 3 имеет наименьший коэффициент корреляции с Y и коэффициент при этом регрессоре является незначимым в исходном уравнении. Результаты регрессионного анализа после исключения X 3 представлены на рис. 7.

    Рисунок 7

    При этом рассчитаем F - статистику для проверки целесообразности исключения:

    F факт = 4,62,

    причем F табл = F 0,05;1;5 = 6,61, так как F факт < F табл, то исключение допустимо для переменной X 3 .

    Оценка качества модели линейной множественной регрессии Y=b 0 +b 1 X 1 +b 2 X 2 . «R-квадрат» равен 0,996, т.е. уравнение регрессии описывает поведение зависимой переменной на 99%, что говорит о высоком уровне описания уравнения. «Значимость F» равна 3,02415218982089E-08, что говорит о том, что «R-квадрат» значим. «Р-Значение» для b 0 равно 0,004, что говорит о том, что данный параметр значим.«Р-Значение» для b 1 равно 0,005, что говорит о том, что данный коэффициент значим. «Р-Значение» для b 2 равно 3,87838361673427E-07, что говорит о том, что данный коэффициент значим. Оцененное уравнение регрессии имеет вид:

    201511,7 -1359,6Х 1 + 1,01Х 2

    При этом коэффициенты регрессии интерпретируются следующим образом: при уменьшении численности населения на 1 млн. чел расходы дом. хозяйств уменьшаются на 1359,6 млрд. руб.; при увеличении уровня денежной массы, расходы дом. хозяйств увеличатся на 1,0) (млрд.руб). При нулевых значениях факторных переменных расходы дом. хозяйств составят 201511,7 млрд.руб, что, возможно, имеется экономическая интерпретация.

    Так, модель = 201511,7 -1359,6Х 1 + 1,01Х 2 имеет хорошее качество и рекомендуется для прогнозирования в качестве «лучшей» в сравнении с исходной моделью.

    5.Прогнозирование.

    5.1.Точечный прогноз. Фактические значения факторных переменных в прогнозном периоде считаются предсказанными, прогнозные значения результативной переменной определяются как предсказанные по «лучшей» модели (= 201511,7 -1359,6Х 1 + 1,01Х 2) на основе факторных переменных в прогнозном периоде. С помощью инструмента Microsoft Excel «График» строится график фактических и предсказанных згачений результативной переменной по наблюдениям и делается вывод о близости фактических значений к прогнозным.

    Прогнозные значения факторных переменных представлены в табл.3.

    Таблица 3

    Прогнозные значения результативной переменной определяются как предсказанные по «лучшей» модели (= 201511,7 -1359,6Х 1 + 1,01Х 2) на основе факторных переменных в прогнозном периоде. Прогнозные значения представлены в табл.4, для сравнения добавляются фактические значения.

    Таблица 4

    [Y] эмпирическое

    На рис.8 представлены фактические и прогнозные значения результативной переменной, а также нижние и верхние границы прогноза.

    Рисунок 8

    Согласно рис.8, прогноз сохраняет возрастающую тенденцию, а также все прогнозные значения близки к фактическим.

    5.2. Интервальный прогноз.

    С помощью инструмента Microsoft Excel «Анализ данных/Регрессия» строится регрессия для совокупного набора данных выборки и прогнозного периода, но с добавлением фиктивных переменных D 1 , D 2 , ..., D p . При этом D i = 1 только для момента наблюдения (n + i), для всех других моментов D i =0. Данные представлены в табл.5, результат регрессии на рис.9.

    Таблица 5

    [Y]сов

    Рисунок 9

    Тогда стандартная ошибка коэффициента при фиктивной переменной равна стандартной ошибке предсказания (S i): для 2012 года составит 738,5; для 2013 года составит 897,1; для 2014 года составит 1139,4.

    Границы интервального прогноза рассчитываются в табл.6.

    Таблица 6

    [Y] эмпирическое

    [Y]сов

    [S] пр

    По данным табл. 6 с помощью инструмента Microsoft Excel «График» строится график по фактическим и предсказанным значениям результативной переменной, верхним и нижним границам прогноза по наблюдениям (рис.10).

    Рисунок 10

    Согласно графику, прогнозные значения вписываются в границы интервального прогноза, что говорит о хорошем качестве прогноза.

    5.3. Оценка устойчивости модели с помощью теста ЧОУ проводится следующим образом:

    а) с помощью инструмента Microsoft Excel «Анализ данных/Регрессия» строится регрессия (рис.11), где в качестве значений X принимаются совокупные (выборочные и прогнозные) значения факторных переменных, а в качестве значений Y - совокупные (выборочные и прогнозные) значения результативной переменной. По данной регрессии определяется сумма квадратов остатков S=2058232,333.

    Рисунок 11

    б) по регрессии п.3.2 с фиктивными переменными Салкевера (рис. 9) определяется сумма квадратов остатков Sd=1270272,697.

    в) рассчитывается и оценивается значение Fстатистики:

    при этом F кр = F 0,05;3;5 = 5,40, тогда полученное значение меньше критического значения F кр и гипотеза о стабильности модели в прогнозном периоде принимается.

    5.4.Обобщение суждений о прогнозных качествах модели на основе п.5.1-5.3, в результате формируется заключение о высоком прогнозном качестве модели (= 201511,7 -1359,6Х 1 + 1,01Х 2) и даются рекомендации по применению модели для прогнозирования.

    Методика п.2.1 успешно апробирована, позволяет выявить основные признаки мультиколлинеарности и может быть рекомендована для подобных исследований.

    Заключение

    Мультиколлинеарность — в эконометрике (регрессионный анализ) — наличие линейной зависимости между объясняющими переменными (факторами) регрессионной модели. При этом различают полную коллинеарность, которая означает наличие функциональной (тождественной) линейной зависимости и частичную или просто мультиколлинеарность — наличие сильной корреляции между факторами.

    Основные последствия мультиколлинеарности: большие дисперсии оценок, уменьшение t-статистик коэффициентов, оценки коэффициентов по МНК становятся неустойчивыми, затрудненное определения вклада переменных, получение неверного знака у коэффициента.

    Главные критерии обнаружения мультиколлинеарности заключаются в следующем: высокий R 2 при незначимых коэффициентах; Высокие парные коэффициенты корреляции; высокие значения коэффициента VIF.

    Основные методы устранения мультиколлинеарности: исключение переменной(ых) из модели; получение дополнительных данных или новой выборки; изменение спецификации модели; использование предварительной информации о некоторых параметрах.

    Разработанное информационно-методическое обеспечение соответствует основным задачам эконометрического исследования проблемы мультиколлинеарности в моделях множественной регрессии и может быть рекомендовано для подобных исследований.

    Список использованных источников

    1. Астахов, С.Н. Эконометрика [Текст]: Учебно-методический комплекс. Казань, 2008. - 107с.
    2. Бардасов, С. А. ЭКОНОМЕТРИКА [Текст]: учебное пособие. 2-е изд., пере- раб. и доп. Тюмень: Издательство Тюменского государственного университета, 2010. 264 с.
    3. Бородкина, Л.И. Курс лекций [Электронный ресурс]. Режим доступа - http://www.iskunstvo.info/materials/history/2/inf/correl.htm
    4. Воскобойников, Ю.Е. ЭКОНОМЕТРИКА в EXCEL Часть 1 [Текст]: учебное пособие, Новосибирск 2005,156 с.
    5. Елисеева, И.И. Практикум по эконометрике: учеб. пособие для экон. вузов / Елисеева, И.И., Курышева, С.В., Гордеенко, Н.М. , [и др.] ; под ред. И.И. Елисеевой - М.: Финансы и статистика, 2001. - 191 с. - (14126-1).
    6. Мультиколлинеарность [Электронный ресурс]. Режим доступа - https://ru.wikipedia.org/wiki/Мультиколлинеарность.
    7. Новиков, А.И. Эконометрика [Текст]: учеб. пособие по напр. "Финансы и кредит", "Экономика" - М.: Дашков и К, 2013. - 223 с.- (93895-1).
    8. Проблема мультиколлинеарности [Электронный ресурс]. Режим доступа - http://crow.academy.ru/econometrics/lectures_/lect_09_/lect_09_4.pdf .
    9. Черняк, В. Прикладная эконометрика. Лекция №9 [Электронный ресурс]. Режим доступа http://www.slideshare.net/vtcherniak/lect-09.
    10. ru - энциклопедический сайт [Электронный ресурс]. Режим доступа - http://kodcupon.ru/ra17syplinoe97/Мультиколлинеарность.

    Скачать: У вас нет доступа к скачиванию файлов с нашего сервера.

    ВОПРОСЫ НА ЭКЗАМЕН ПО КУРСУ

    «ЭКОНОМЕТРИКА (продвинутый уровень)»

    1. Модель множественной регрессии. Виды моделей множественной регрессии.

    2. Матричная форма записи и матричная формула оценки параметров множественной регрессии.

    3. Оценка качества уравнения регрессии. Объясненная и необъясненная составляющие уравнения регрессии.

    4. Коэффициент детерминации и коэффициент корреляции, их расчет в модели парной регрессии.

    5. Выборочный множественный коэффициент детерминации и проверка его значимости по -критерию Фишера.

    6. Проверка значимости множественного уравнения регрессии с помощью -критерия Фишера.

    Значимость уравнения регрессии, т.е. соответствие эконометрической модели Y = a ˆ0 + a ˆ 1X + e фактическим (эмпирическим) данным, позволяет ус-

    тановить, пригодно ли уравнение регрессии для практического использования (для анализа и прогноза), или нет.

    Для проверки значимости уравнения используется F - критерий Фишера. Он вычисляется по фактическим данным как отношение несмещенной

    дисперсии остаточной компоненты к дисперсии исходного ряда. Проверка значимости коэффициента детерминации осуществляется с помощью -критерия Фишера, расчетное значение которого находится по формуле:

    ,

    где коэффициент множественной корреляции, – количество наблюдений, - количество переменных, – диагональный элемент матрицы .

    Для проверки гипотезы по таблице определяют табличное значение

    критерия Фишера F .

    F(α ν1 ν2) – это максимально возможное значение критерия в зависимости от влияния случайных факторов при данных степенях свободы

    ν = m1 , ν2 = n m −1, и уровне значимости α . Здесь m – количество аргументов в модели.

    Уровень значимости α – вероятность отвергнуть правильную гипотезу, но при условии, что она верна (ошибка первого рода). Обычно α принимается равной 0,05 или 0,01.

    Если F ф> F табл, то H0 – гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если наоборт, то гипотеза H0 не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.

    7. Оценка значимости линейных коэффициентов корреляции. -критерий Стьюдента.

    Для оценки статистической значимости коэффициентов регрессии и коэффициента корреляции рассчитывается t-критерий Стьюдента. Выдвигается гипотеза H 0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Наблюдаемые значения t-критерия рассчитываются по формулам:

    , , ,

    где – случайные ошибки параметров линейной регрессии и коэффициента корреляции.


    Для линейной парной регрессии выполняется равенство , поэтому проверки гипотез о значимости коэффициента регрессии при факторе и коэффициента корреляции равносильны проверке гипотезы о статистической значимости уравнения регрессии в целом.

    Вообще, случайные ошибки рассчитываются по формулам:

    , , .

    где – остаточная дисперсия на одну степень свободы:

    .

    Табличное (критическое) значение t-статистики находят по таблицам распределения t-Стьюдента при уровне значимости α = 0,05 и числе степеней свободы . Если t табл < t факт, то H 0 отклоняется, т.е. коэффициенты регрессии не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора.

    8. Анализ влияния факторов на основе многофакторных регрессионных моделей: коэффициент эластичности ; бета-коэффициент и дельта-коэффициент .

    9. Способы расчета параметров , , производственной функции Кобба-Дугласа.

    10. Регрессионные уравнения с переменной структурой. Фиктивные переменные. Виды фиктивных переменных. Преимущества использования фиктивных переменных при построении регрессионных моделей.

    11. Использование фиктивных переменных для исследования структурных изменений. Моделирование сезонности. Количество бинарных переменных при k градациях.

    Понятие мультиколлинеарности. Методы обнаружения и устранения мультиколлинеарности.

    Количественная оценка параметров уравнения регрессии предполагает выполнение условия линейной независимости между независимыми переменными. Однако на практике объясняющие переменные часто имеют высокую степень взаимосвязи между собой, что является нарушением указанного условия. Данное явление носит название мультиколлинеарности.

    Термин коллинеарность (collinear ) обозначает линейную корреляцию между двумя независимыми переменными, а Мультиколлинеарность (multi-collinear ) – между более чем двумя независимыми переменными. Обыкновенно под мультиколлинеарностью понимают оба случая.

    Таким образом, мультиколлинеарность означает наличие тесной линейной зависимости или сильной корреляции между двумя или более объясняющими (независимыми) переменными. Одной из задач эконометрии является выявление мультиколлинеарности между независимыми переменными.

    Различают совершенную и несовершенную мультиколлинеарность. Совершенная мультиколлинеарность означает, что вариация одной из независимых переменных может быть полностью объяснена изменением другой (других) переменной.

    Иначе, взаимосвязь между ними выражается линейной функцией

    Графическая интерпретация данного случая:

    Несовершенная мультиколлинеарность может быть определена как линейная функциональная связь между двумя или более независимыми переменными, которая настолько сильна, что может существенно затронуть оценки коэффициентов при переменных в модели.

    Несовершенная мультиколлинеарность возникает тогда, когда две (или более) независимые переменные находятся между собой в линейной функциональной зависимости, описываемой уравнением

    В отличие от ранее рассмотренного уравнения, данное включает величину стохастической ошибки . Это предполагает, что несмотря на то, что взаимосвязь между и может быть весьма сильной, она не настолько сильна, чтобы полностью объяснить изменение переменной изменением , т.е. существует некоторая необъяснимая вариация.

    Графически данный случай представлен следующим образом:


    В каких же случаях может возникнуть мультиколлинеарность? Их, по крайней мере, два.

    1. Имеет место глобальная тенденция одновременного изменения экономических показателей. В качестве примера можно привести такие показатели как объем производства, доход, потребление, накопление, занятость, инвестиции и т.п., значения которых возрастают в период экономического роста и снижаются в период спада.

    Одной из причин мультиколлинеарности является наличие тренда (тенденции) в динамике экономических показателей.

    2. Использование лаговых значений переменных в экономических моделях.

    В качестве примера можно рассматривать модели, в которых используются как величины дохода текущего периода, так и затраты на потребление предыдущего.

    В целом при исследовании экономических процессов и явлений методами эконометрии очень трудно избежать зависимости между показателями.

    Последствия мультиколлинеарности сводятся к

    1. снижению точности оценивания, которая проявляется через

    a. слишком большие ошибки некоторых оценок,

    b. высокую степень корреляции между ошибками,

    c. Резкое увеличение дисперсии оценок параметров. Данное проявление мультиколлинеарности может также отразиться на получении неожиданного знака при оценках параметров;

    2. незначимости оценок параметров некоторых переменных модели благодаря, в первую очередь, наличию их взаимосвязи с другими переменными, а не из-за того, что они не влияют на зависимую переменную. То есть -статистика параметров модели не отвечает уровню значимости ( -критерий Стьюдента не выдерживает проверки на адекватность);

    3. сильному повышению чувствительности оценок параметров к размерам совокупности наблюдений. То есть увеличение числа наблюдений существенно может повлиять на величины оценок параметров модели;

    4. увеличению доверительных интервалов;

    5. повышению чувствительности оценок к изменению спецификации модели (например, к добавлению в модель или исключению из модели переменных, даже несущественно влияющих).

    Признаки мультиколлинеарности:

    1. когда среди парных коэффициентов корреляции

    между объясняющими (независимыми) переменными есть такие, уровень которых либо приближается, либо равен коэффициенту множественной корреляции.

    Если в модели более двух независимых переменных, то необходимо более детальное исследование взаимосвязей между переменными. Данная процедура может быть осуществлена с помощью алгоритма Фаррара-Глобера;

    2. когда определитель матрицы коэффициентов парной корреляции между независимыми переменными приближается к нулю:

    если , то имеет место полная мультиколлинеарность,

    если , то мультиколлинеарность отсутствует;

    3. если в модели найдено маленькое значение параметра при высоком уровне коэффициента частной детерминации и при этом -критерий существенно отличается от нуля;