Информационный критерий Акаике

Информационный критерий Акаике

Информационный критерий Акаике (AIC) — критерий, применяющийся исключительно для выбора из нескольких статистических моделей. Разработан в 1971 как «an information criterion» («(некий) информационный критерий») en:Hirotsugu_Akaike и предложен им в статье 1974 года[1].

Предпосылкой к созданию критерия послужила задача оценки качества предсказаний модели на тестовой выборке при известном качестве на обучающей выборке при условии, что модель мы настраивали по методу максимума правдоподобия. То есть стояла задача оценки переобучения модели. Акаике, используя теорию информации (в том числе расстояние Кульбака — Лейблера), смог для ряда частных случаев получить искомую оценку.

Содержание

Определение

В общем случае AIC:

\mathit{AIC} = 2k - 2\ln(L)\,

где k — число параметров в статистической модели, и L — максимизированное значение функции правдоподобия модели.

До конца статьи будем полагать, что ошибки модели нормально и независимо распределены. Пусть n — число наблюдений и RSS-

\mathit{RSS} =  \sum_{i=1}^n \hat{\varepsilon}_i^2,

остаточная сумма квадратов. Далее мы предполагаем, что дисперсия ошибок модели неизвестна, но одинакова для всех их. Следовательно:

\mathit{AIC}=2k + n[\ln(2\pi \mathit{RSS}/n) + 1]\,.

В случае сравнения моделей на выборках одинаковой длины, выражение можно упростить, выкидывая члены зависящие только от n:

\mathit{AIC}=2k + n[\ln(\mathit{RSS})]\,.

Таким образом, критерий не только вознаграждает за качество приближения, но и штрафует за использование излишнего количества параметров модели. Считается, что наилучшей будет модель с наименьшим значением критерия AIC. Критерий Шварца (BIC) штрафует свободные параметры в большей мере.

Стоит отметить, что абсолютное значение AIC не имеет смысла — он указывает только на относительный порядок сравниваемых моделей.

Применимость к настройке по \chi^2 (максимуму правдоподобия)

Часто необходимо выбирать между моделями, для которых считается, что их ошибки нормально распределены. Это приводит к критерию \chi^2.

Для таких случаев можно приспособить AIC. В рамках статьи назовем его AIC_{\chi^2}. От непосредственно AIC он будет отличаться на аддитивную константу (функцию лишь данных, но не модели), которой можно пренебречь ввиду относительного характера критерия.

Для приближения \chi^2 функция правдоподобия определяется следующим образом:

L=\prod_{i=1}^n \left(\frac{1}{2 \pi \sigma_i^2}\right)^{1/2} \exp \left( -\sum_{i=1}^{n}\frac{(y_i-f(\mathbf{x}))^2}{2\sigma_i^2}\right)
\therefore \ln L = \ln\left(\prod_{i=1}^n\left(\frac{1}{2\pi\sigma_i^2}\right)^{1/2}\right) - \frac{1}{2}\sum_{i=1}^n \frac{(y_i-f(\mathbf{x}))^2}{\sigma_i^2}
\therefore \ln L = C - \chi^2/2 \,,

где C — независимая от модели константа, которую можно исключить в случае сравнения моделей на одних и тех же данных.

Таким образом: AIC = 2k - 2\ln(L) = 2k - 2(C-\chi^2/2) = 2k -2C + \chi^2 \,. Исключая константу:

AIC_{\chi^2}=\chi^2 + 2k

Эта форма критерия часто удобна, если мы уже вычислили \chi^2 как статистику качества приближения. В случае обучения моделей на данных с одинаковым количеством точек, нужно брать модель с наименьшим значением AIC_{\chi^2}.

Аналогично, если имеется вычисленная статистика R^2 («Объясненная дисперсия»), можно записать:

AIC_{R^2}=n\ln\frac{1-R^2}{n}+2k.\

См. также

Ссылки

  1. Akaike, Hirotugu (1974). «A new look at the statistical model identification». IEEE Transactions on Automatic Control 19 (6): 716–723. DOI:10.1109/TAC.1974.1100705. MR0423716.

Литература


Wikimedia Foundation. 2010.

Игры ⚽ Поможем решить контрольную работу

Полезное


Смотреть что такое "Информационный критерий Акаике" в других словарях:

  • Информационный критерий — Информационный критерий  применяемая в эконометрике (статистике) мера относительного качества эконометрических (статистических) моделей, учитывающая степень «подгонки» модели под данные с корректировкой (штрафом) на используемое количество… …   Википедия

  • Модель бинарного выбора — Модель бинарного выбора  применяемая в эконометрике модель зависимости бинарной переменной (принимающей всего два значения  0 и 1) от совокупности факторов. Построение обычной линейной регрессии для таких переменных теоретически… …   Википедия

  • Коэффициент детерминации — ( R квадрат) это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной… …   Википедия

  • AIC — может значить: AIC  код аэропорта ИКАО для Air India A.I. Corporation  японская компания Альтернативный информационный центр (Израиль) American International College Anime International Company  японская анимационная студия… …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»