Коэффициент детерминации


Коэффициент детерминации

Коэффициент детерминации (R^2 - R-квадрат) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно — это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по факторам дисперсии зависимой переменной) в дисперсии зависимой переменной. Его рассматривают как универсальную меру связи одной случайной величины от множества других. В частном случае линейной зависимости R^2 является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x.

Содержание

Определение и формула

Истинный коэффициент детерминации модели зависимости случайной величины y от факторов x определяется следующим образом:

R^2 =1-\frac {V(y|x)}{V(y)}=1-\frac {\sigma^2}{\sigma^2_y},

где V(y|x)=\sigma^2 — условная (по факторам x) дисперсия зависимой переменной (дисперсия случайной ошибки модели).

В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):

R^2 =1-\frac {\hat{\sigma}^2}{\hat{\sigma}^2_y}=1-\frac {ESS/n}{TSS/n}=1-\frac {ESS} {TSS},

где ESS=\sum^n_{t=1}e^2_t=\sum^n_{t=1} (y_t-\hat y_t)^2-сумма квадратов остатков регрессии, y_t,\hat y_t - фактические и расчетные значения объясняемой переменной.

TSS=\sum^n_{t=1} (y_t-\overline y)^2=n \hat \sigma^2_y - общая сумма квадратов.

\bar{y}=\frac{1}{n}\sum_{i=1}^n y_i


В случае линейной регрессии с константой TSS=RSS+ESS, где RSS=\sum^n_{t=1} (\hat y_t-\overline y)^2 — объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае — коэффициент детерминации — это доля объяснённой суммы квадратов в общей:

R^2=\frac {RSS} {TSS}

Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.

Интерпретация

1. Коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. При оценке регрессионных моделей это интерпретируется как соответствие модели данным. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50% (в этом случае коэффициент множественной корреляции превышает по модулю 70%). Модели с коэффициентом детерминации выше 80% можно признать достаточно хорошими (коэффициент корреляции превышает 90%). Значение коэффициента детерминации 1 означает функциональную зависимость между переменными.

2. При отсутствии статистической связи между объясняемой переменной и факторами, статистика nR^2 для линейной регрессии имеет асимптотическое распределение \chi^2(k-1), где k-1 — количество факторов модели (см. тест множителей Лагранжа). В случае линейной регрессии с нормально распределёнными случайными ошибками статистика F=\frac {R^2/(k-1)}{(1-R^2)/(n-k)} имеет точное (для выборок любого объёма) распределение Фишера F(k-1,n-k) (см. F-тест). Информация о распределении этих величин позволяет проверить статистическую значимость регрессионной модели исходя из значения коэффициента детерминации. Фактически в этих тестах проверяется гипотеза о равенстве истинного коэффициента детерминации нулю.

Недостаток R^2 и альтернативные показатели

Основная проблема применения (выборочного) R^2 заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют! Поэтому сравнение моделей с разным количеством факторов с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.

Скорректированный (adjusted) R^2

Для того, чтобы была возможность сравнивать модели с разным числом факторов так, чтобы число регрессоров (факторов) не влияло на статистику R^2 обычно используется скорректированный коэффициент детерминации, в котором используются несмещённые оценки дисперсий:

R_{adj}^2 =1-\frac {s^2}{s^2_y}=1-\frac {ESS/(n-k)}{TSS/(n-1)}=1-(1- R^2) {(n-1) \over (n-k)}\leqslant R^2

который даёт штраф за дополнительно включённые факторы, где n — количество наблюдений, а k — количество параметров.

Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве факторов). Поэтому теряется интерпретация показателя как "доли". Тем не менее, применение показателя в сравнении вполне обоснованно.

Для моделей с одинаковой зависимой переменной и одинаковым объемом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии s^2=ESS/(n-k) или стандартной ошибки модели s. Разница только в том, что последние критерии чем меньше, тем лучше.

Информационные критерии

AICинформационный критерий Акаике — применяется исключительно для сравнения моделей. Чем меньше значение тем лучше. Часто используется для сравнения моделей временных рядов с разным количеством лагов.
AIC = {2k \over n} +\ln{ESS \over n}, где k— количество параметров модели.
BIC или SC — байесовский информационный критерий Шварца — используется и интерпретируется аналогично AIC.
BIC = {k \ln{n} \over n} + \ln{ESS \over n}. Даёт больший штраф за включение лишних лагов в модель, чем AIC.

R^2-обобщённый (extended)

В случае отсутствия в линейной множественной МНК регрессии константы свойства коэффициента детерминации могут нарушаться для конкретной реализации. Поэтому модели регрессии со свободным членом и без него нельзя сравнивать по критерию R^2. Эта проблема решается с помощью построения обобщённого коэффициента детерминации R_{extended}^2, который совпадает с исходным для случая МНК регрессии со свободным членом, и для которого выполняются четыре свойства перечисленные выше. Суть этого метода заключается рассмотрении проекции единичного вектора на плоскость объясняющих переменных.

Для случая регрессии без свободного члена:
R_{extended}^2 = 1- {Y'*(I-P(X))*Y \over Y'*(I-\pi(X))*Y},
где X — матрица nxk значений факторов, P(X) = X*(X'*X)^{-1}*X' — проектор на плоскость X, \pi(X) = {P(X)*i_n*i_n'*P(X) \over i_n'*P(X)*i_n}, где i_n — единичный вектор nx1.

R_{extended}^2 с условием небольшой модификации, также подходит для сравнения между собой регрессий построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

Замечание

Высокие значения коэффициента детерминации, вообще говоря, не свидетельствуют о наличии причинно-следственной зависимости между переменными (также как и в случае обычного коэффициента корреляции). Например, если объясняемая переменная и факторы, на самом деле не связанные с объясняемой переменой, имеют возрастающую динамику, то коэффициент детерминации будет достаточно высок. Поэтому логическая и смысловая адекватность модели имеют первостепенную важность. Кроме того, необходимо использовать критерии для всестороннего анализа качества модели.

См. также

Примечания


Ссылки



Wikimedia Foundation. 2010.

Смотреть что такое "Коэффициент детерминации" в других словарях:

  • КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ — оценка качества ( объясняющей способности ) уравнения регрессии, доля дисперсии объясненной зависимой переменной у: R2= 1 Sum(yi yzi)2 / Sum(yi y)2 , где yi наблюдаемое значение зависимой переменной y, yzi значение зависимой переменной,… …   Социология: Энциклопедия

  • Коэффициент детерминации — квадрат коэффициента линейной корреляции Пирсона, интерпретируется как доля дисперсии зависимой переменной, объясненной посредством независимой переменной …   Социологический словарь Socium

  • Коэффициент детерминации — Мера того, насколько хорошо соотносятся зависимые и независимые переменные в регрессивном анализе. Например, процент от изменения доходности актива, объясняемый доходностью рыночного портфеля …   Инвестиционный словарь

  • Коэффициент детерминации — (COEFFICIENT OF DETERMINATION) определяется при построении линейной регрессионной зависимости. Равен доле дисперсии зависимой переменной, связанной с вариаций независимой переменной …   Финансовый глоссарий

  • Коэффициент корреляции — (Correlation coefficient) Коэффициент корреляции это статистический показатель зависимости двух случайных величин Определение коэффициента корреляции, виды коэффициентов корреляции, свойства коэффициента корреляции, вычисление и применение… …   Энциклопедия инвестора

  • Коэффициент корреляции — Корреляция статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к… …   Википедия

  • Коэффициент неопределенности — (COEFFICIENT OF NONDETERMINATION) равен разности единицы и коэффициента детерминации …   Финансовый глоссарий

  • ОБЩЕЙ ДЕТЕРМИНАЦИИ, КОЭФФИЦИЕНТ — Квадрат коэффициента множественной корреляции; следовательно, число, выражающее пропорцию общего значения вариансы, объясняемого всеми независимыми переменными во множественной корреляции …   Толковый словарь по психологии

  • Корреляция — (Correlation) Корреляция это статистическая взаимосвязь двух или нескольких случайных величин Понятие корреляции, виды корреляции, коэффициент корреляции, корреляционный анализ, корреляция цен, корреляция валютных пар на Форекс Содержание… …   Энциклопедия инвестора

  • РЕГРЕССИОННЫЙ И КОРРЕЛЯЦИОННЫЙ АНАЛИЗ — REGRESSION AND CORRELATION ANALYSISР.а. представляет собой вычисления на основе статистической информации с целью математической оценки усредненной связи между зависимой переменной и некоторой независимой переменной или переменными. Простая… …   Энциклопедия банковского дела и финансов

Книги