- Коэффициент детерминации
-
Коэффициент детерминации (
- R-квадрат) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно — это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по факторам дисперсии зависимой переменной) в дисперсии зависимой переменной. Его рассматривают как универсальную меру связи одной случайной величины от множества других. В частном случае линейной зависимости
является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x.Содержание
Определение и формула
Истинный коэффициент детерминации модели зависимости случайной величины y от факторов x определяется следующим образом:
где
— условная (по факторам x) дисперсия зависимой переменной (дисперсия случайной ошибки модели).В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):
где
-сумма квадратов остатков регрессии,
- фактические и расчетные значения объясняемой переменной.
- общая сумма квадратов.
В случае линейной регрессии с константой
, где
— объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае — коэффициент детерминации — это доля объяснённой суммы квадратов в общей:
Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.
Интерпретация
1. Коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. При оценке регрессионных моделей это интерпретируется как соответствие модели данным. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50% (в этом случае коэффициент множественной корреляции превышает по модулю 70%). Модели с коэффициентом детерминации выше 80% можно признать достаточно хорошими (коэффициент корреляции превышает 90%). Значение коэффициента детерминации 1 означает функциональную зависимость между переменными.
2. При отсутствии статистической связи между объясняемой переменной и факторами, статистика
для линейной регрессии имеет асимптотическое распределение
, где
— количество факторов модели (см. тест множителей Лагранжа). В случае линейной регрессии с нормально распределёнными случайными ошибками статистика
имеет точное (для выборок любого объёма) распределение Фишера
(см. F-тест). Информация о распределении этих величин позволяет проверить статистическую значимость регрессионной модели исходя из значения коэффициента детерминации. Фактически в этих тестах проверяется гипотеза о равенстве истинного коэффициента детерминации нулю.Недостаток
и альтернативные показателиОсновная проблема применения (выборочного)
заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют! Поэтому сравнение моделей с разным количеством факторов с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.Скорректированный (adjusted)

Для того, чтобы была возможность сравнивать модели с разным числом факторов так, чтобы число регрессоров (факторов) не влияло на статистику
обычно используется скорректированный коэффициент детерминации, в котором используются несмещённые оценки дисперсий:
который даёт штраф за дополнительно включённые факторы, где n — количество наблюдений, а k — количество параметров.
Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве факторов). Поэтому теряется интерпретация показателя как "доли". Тем не менее, применение показателя в сравнении вполне обоснованно.
Для моделей с одинаковой зависимой переменной и одинаковым объемом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии
или стандартной ошибки модели
. Разница только в том, что последние критерии чем меньше, тем лучше.Информационные критерии
AIC — информационный критерий Акаике — применяется исключительно для сравнения моделей. Чем меньше значение тем лучше. Часто используется для сравнения моделей временных рядов с разным количеством лагов.
, где k— количество параметров модели.
BIC или SC — байесовский информационный критерий Шварца — используется и интерпретируется аналогично AIC.
. Даёт больший штраф за включение лишних лагов в модель, чем AIC.
-обобщённый (extended)В случае отсутствия в линейной множественной МНК регрессии константы свойства коэффициента детерминации могут нарушаться для конкретной реализации. Поэтому модели регрессии со свободным членом и без него нельзя сравнивать по критерию
. Эта проблема решается с помощью построения обобщённого коэффициента детерминации
, который совпадает с исходным для случая МНК регрессии со свободным членом, и для которого выполняются четыре свойства перечисленные выше. Суть этого метода заключается рассмотрении проекции единичного вектора на плоскость объясняющих переменных.Для случая регрессии без свободного члена:
,
где X — матрица nxk значений факторов,
— проектор на плоскость X,
, где
— единичный вектор nx1.
с условием небольшой модификации, также подходит для сравнения между собой регрессий построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).Замечание
Высокие значения коэффициента детерминации, вообще говоря, не свидетельствуют о наличии причинно-следственной зависимости между переменными (также как и в случае обычного коэффициента корреляции). Например, если объясняемая переменная и факторы, на самом деле не связанные с объясняемой переменой, имеют возрастающую динамику, то коэффициент детерминации будет достаточно высок. Поэтому логическая и смысловая адекватность модели имеют первостепенную важность. Кроме того, необходимо использовать критерии для всестороннего анализа качества модели.
См. также
- Коэффициент корреляции
- Корреляция
- Мультиколлинеарность
- Дисперсия случайной величины
- Метод группового учета аргументов
- Регрессионный анализ
Примечания
Ссылки
- Глоссарий статистических терминов
- Прикладная эконометрика (журнал)
Для улучшения этой статьи желательно?: - Викифицировать статью.
- Проставив сноски, внести более точные указания на источники.
Категории:- Эконометрика
- Факторный анализ
Wikimedia Foundation. 2010.


