Коэффициент детерминации

Коэффициент детерминации

Коэффициент детерминации (R^2 - R-квадрат) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно — это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по факторам дисперсии зависимой переменной) в дисперсии зависимой переменной. Его рассматривают как универсальную меру связи одной случайной величины от множества других. В частном случае линейной зависимости R^2 является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x.

Содержание

Определение и формула

Истинный коэффициент детерминации модели зависимости случайной величины y от факторов x определяется следующим образом:

R^2 =1-\frac {V(y|x)}{V(y)}=1-\frac {\sigma^2}{\sigma^2_y},

где V(y|x)=\sigma^2 — условная (по факторам x) дисперсия зависимой переменной (дисперсия случайной ошибки модели).

В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):

R^2 =1-\frac {\hat{\sigma}^2}{\hat{\sigma}^2_y}=1-\frac {ESS/n}{TSS/n}=1-\frac {ESS} {TSS},

где ESS=\sum^n_{t=1}e^2_t=\sum^n_{t=1} (y_t-\hat y_t)^2-сумма квадратов остатков регрессии, y_t,\hat y_t - фактические и расчетные значения объясняемой переменной.

TSS=\sum^n_{t=1} (y_t-\overline y)^2=n \hat \sigma^2_y - общая сумма квадратов.

\bar{y}=\frac{1}{n}\sum_{i=1}^n y_i


В случае линейной регрессии с константой TSS=RSS+ESS, где RSS=\sum^n_{t=1} (\hat y_t-\overline y)^2 — объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае — коэффициент детерминации — это доля объяснённой суммы квадратов в общей:

R^2=\frac {RSS} {TSS}

Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.

Интерпретация

1. Коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. При оценке регрессионных моделей это интерпретируется как соответствие модели данным. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50% (в этом случае коэффициент множественной корреляции превышает по модулю 70%). Модели с коэффициентом детерминации выше 80% можно признать достаточно хорошими (коэффициент корреляции превышает 90%). Значение коэффициента детерминации 1 означает функциональную зависимость между переменными.

2. При отсутствии статистической связи между объясняемой переменной и факторами, статистика nR^2 для линейной регрессии имеет асимптотическое распределение \chi^2(k-1), где k-1 — количество факторов модели (см. тест множителей Лагранжа). В случае линейной регрессии с нормально распределёнными случайными ошибками статистика F=\frac {R^2/(k-1)}{(1-R^2)/(n-k)} имеет точное (для выборок любого объёма) распределение Фишера F(k-1,n-k) (см. F-тест). Информация о распределении этих величин позволяет проверить статистическую значимость регрессионной модели исходя из значения коэффициента детерминации. Фактически в этих тестах проверяется гипотеза о равенстве истинного коэффициента детерминации нулю.

Недостаток R^2 и альтернативные показатели

Основная проблема применения (выборочного) R^2 заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют! Поэтому сравнение моделей с разным количеством факторов с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.

Скорректированный (adjusted) R^2

Для того, чтобы была возможность сравнивать модели с разным числом факторов так, чтобы число регрессоров (факторов) не влияло на статистику R^2 обычно используется скорректированный коэффициент детерминации, в котором используются несмещённые оценки дисперсий:

R_{adj}^2 =1-\frac {s^2}{s^2_y}=1-\frac {ESS/(n-k)}{TSS/(n-1)}=1-(1- R^2) {(n-1) \over (n-k)}\leqslant R^2

который даёт штраф за дополнительно включённые факторы, где n — количество наблюдений, а k — количество параметров.

Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве факторов). Поэтому теряется интерпретация показателя как "доли". Тем не менее, применение показателя в сравнении вполне обоснованно.

Для моделей с одинаковой зависимой переменной и одинаковым объемом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии s^2=ESS/(n-k) или стандартной ошибки модели s. Разница только в том, что последние критерии чем меньше, тем лучше.

Информационные критерии

AICинформационный критерий Акаике — применяется исключительно для сравнения моделей. Чем меньше значение тем лучше. Часто используется для сравнения моделей временных рядов с разным количеством лагов.
AIC = {2k \over n} +\ln{ESS \over n}, где k— количество параметров модели.
BIC или SC — байесовский информационный критерий Шварца — используется и интерпретируется аналогично AIC.
BIC = {k \ln{n} \over n} + \ln{ESS \over n}. Даёт больший штраф за включение лишних лагов в модель, чем AIC.

R^2-обобщённый (extended)

В случае отсутствия в линейной множественной МНК регрессии константы свойства коэффициента детерминации могут нарушаться для конкретной реализации. Поэтому модели регрессии со свободным членом и без него нельзя сравнивать по критерию R^2. Эта проблема решается с помощью построения обобщённого коэффициента детерминации R_{extended}^2, который совпадает с исходным для случая МНК регрессии со свободным членом, и для которого выполняются четыре свойства перечисленные выше. Суть этого метода заключается рассмотрении проекции единичного вектора на плоскость объясняющих переменных.

Для случая регрессии без свободного члена:
R_{extended}^2 = 1- {Y'*(I-P(X))*Y \over Y'*(I-\pi(X))*Y},
где X — матрица nxk значений факторов, P(X) = X*(X'*X)^{-1}*X' — проектор на плоскость X, \pi(X) = {P(X)*i_n*i_n'*P(X) \over i_n'*P(X)*i_n}, где i_n — единичный вектор nx1.

R_{extended}^2 с условием небольшой модификации, также подходит для сравнения между собой регрессий построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

Замечание

Высокие значения коэффициента детерминации, вообще говоря, не свидетельствуют о наличии причинно-следственной зависимости между переменными (также как и в случае обычного коэффициента корреляции). Например, если объясняемая переменная и факторы, на самом деле не связанные с объясняемой переменой, имеют возрастающую динамику, то коэффициент детерминации будет достаточно высок. Поэтому логическая и смысловая адекватность модели имеют первостепенную важность. Кроме того, необходимо использовать критерии для всестороннего анализа качества модели.

См. также

Примечания


Ссылки



Wikimedia Foundation. 2010.

Нужен реферат?

Полезное


Смотреть что такое "Коэффициент детерминации" в других словарях:

  • КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ — оценка качества ( объясняющей способности ) уравнения регрессии, доля дисперсии объясненной зависимой переменной у: R2= 1 Sum(yi yzi)2 / Sum(yi y)2 , где yi наблюдаемое значение зависимой переменной y, yzi значение зависимой переменной,… …   Социология: Энциклопедия

  • Коэффициент детерминации — квадрат коэффициента линейной корреляции Пирсона, интерпретируется как доля дисперсии зависимой переменной, объясненной посредством независимой переменной …   Социологический словарь Socium

  • Коэффициент детерминации — Мера того, насколько хорошо соотносятся зависимые и независимые переменные в регрессивном анализе. Например, процент от изменения доходности актива, объясняемый доходностью рыночного портфеля …   Инвестиционный словарь

  • Коэффициент детерминации — (COEFFICIENT OF DETERMINATION) определяется при построении линейной регрессионной зависимости. Равен доле дисперсии зависимой переменной, связанной с вариаций независимой переменной …   Финансовый глоссарий

  • Коэффициент корреляции — (Correlation coefficient) Коэффициент корреляции это статистический показатель зависимости двух случайных величин Определение коэффициента корреляции, виды коэффициентов корреляции, свойства коэффициента корреляции, вычисление и применение… …   Энциклопедия инвестора

  • Коэффициент корреляции — Корреляция статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к… …   Википедия

  • Коэффициент неопределенности — (COEFFICIENT OF NONDETERMINATION) равен разности единицы и коэффициента детерминации …   Финансовый глоссарий

  • ОБЩЕЙ ДЕТЕРМИНАЦИИ, КОЭФФИЦИЕНТ — Квадрат коэффициента множественной корреляции; следовательно, число, выражающее пропорцию общего значения вариансы, объясняемого всеми независимыми переменными во множественной корреляции …   Толковый словарь по психологии

  • Корреляция — (Correlation) Корреляция это статистическая взаимосвязь двух или нескольких случайных величин Понятие корреляции, виды корреляции, коэффициент корреляции, корреляционный анализ, корреляция цен, корреляция валютных пар на Форекс Содержание… …   Энциклопедия инвестора

  • РЕГРЕССИОННЫЙ И КОРРЕЛЯЦИОННЫЙ АНАЛИЗ — REGRESSION AND CORRELATION ANALYSISР.а. представляет собой вычисления на основе статистической информации с целью математической оценки усредненной связи между зависимой переменной и некоторой независимой переменной или переменными. Простая… …   Энциклопедия банковского дела и финансов


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»