Логистическая регрессия

Логистическая регрессия или логит-регрессия (англ. logit model) — это статистическая модель, используемая для предсказания вероятности возникновения некоторого события путём подгонки данных к логистической кривой.

Содержание

1 Описание
- 1.1 Подбор параметров
2 Регуляризация
3 Применение
4 Связанные методы
5 См. также
6 Литература

Описание

Логистическая функция: $f(x) = \frac{1}{1 + e^{-x}}$ .

Логистическая регрессия применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится так называемая зависимая переменная $y$ , принимающая лишь одно из двух значений — как правило, это числа 0 (событие не произошло) и 1 (событие произошло), и множество независимых переменных (также называемых признаками, предикторами или регрессорами) — вещественных $x_1, x_2, ..., x_n$ , на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.

Делается предположение о том, что вероятность наступления события $y=1$ равна:

$\mathbb{P}\{y=1 \mid x\} = f(z),$

где $z = \theta^T x = \theta_1 x_1 + \ldots + \theta_n x_n$ , $x$ и $\theta$ — вектора-столбцы значений независимых переменных $x_1, ..., x_n$ и параметров (коэффициентов регрессии) — вещественных чисел $\theta_1, ..., \theta_n$ , соответственно, а $f(z)$ — так называемая логистическая функция (иногда также называемая сигмоидом или логит-функцией):

$f(z) = \frac{1}{1 + e^{-z}}.$

Так как $y$ принимает лишь значения 0 и 1, то вероятность второго возможного значения равна:

$\mathbb{P}\{y=0 \mid x\} = 1 - f(z) = 1 - f(\theta^T x).$

Для краткости функцию распределения $y$ при заданном $x$ можно записать в таком виде:

$\mathbb{P}\{y \mid x\} = f(\theta^T x)^y (1 - f(\theta^T x))^{1 - y}, \quad y \in \{ 0, 1 \}.$

Фактически, это есть распределение Бернулли с параметром, равным $f(\theta^T x)$ .

Подбор параметров

Для подбора параметров $\theta_1, ..., \theta_n$ необходимо составить обучающую выборку, состоящую из наборов значений независимых переменных и соответствующих им значений зависимой переменной $y$ . Формально, это множество пар $\!(x^{(1)}, y^{(1)}), ..., (x^{(m)}, y^{(m)})$ , где $x^{(i)} \in \mathbb{R}^n$ — вектор значений независимых переменных, а $y^{(i)} \in \{0,1\}$ — соответствующее им значение $y$ . Каждая такая пара называется обучающим примером.

Обычно используется метод максимального правдоподобия, согласно которому выбираются параметры $\theta$ , максимизирующие значение функции правдоподобия на обучающей выборке:

$\hat{\theta} = \mbox{argmax}_{\theta} L(\theta) = \mbox{argmax}_{\theta} \prod_{i=1}^{m} \mathbb{P}\{y=y^{(i)} \mid x=x^{(i)}\}.$

Максимизация функции правдоподобия эквивалентна максимизации её логарифма:

$\log L(\theta) = \sum_{i=1}^m \log \mathbb{P}\{y=y^{(i)} \mid x=x^{(i)}\} = \sum_{i=1}^m y^{(i)} \log f(\theta^T x^{(i)}) + (1 - y^{(i)}) \log (1 - f(\theta^T x^{(i)})).$

Для максимизации этой функции может быть применён, например, метод градиентного спуска. Он заключается в выполнении следующих итераций, начиная с некоторого начального значения параметров $\theta$ :

$\theta := \theta + \alpha \nabla \log L(\theta) = \theta + \alpha \sum_{i=1}^{m} (y^{(i)} - f(\theta^T x^{(i)})) x^{(i)}, \quad \alpha > 0.$

На практике также применяют метод Ньютона и стохастический градиентный спуск.

Регуляризация

Для улучшения обобщающей способности получающейся модели, то есть уменьшения эффекта переобучения, на практике часто рассматривается логистическая регрессия с регуляризацией.

Регуляризация заключается в том, что вектор параметров $\theta$ рассматривается как случайный вектор с некоторой заданной априорной плотностью распределения $p(\theta)$ . Для обучения модели вместо метода наибольшего правдоподобия при этом используется метод максимизации апостериорной оценки, то есть ищутся параметры $\theta$ , максимизирующие величину:

$\prod_{i=1}^m\mathbb{P}\{y^{(i)} \mid x^{(i)}, \theta\} \cdot p(\theta).$

В качестве априорного распределения часто выступает многомерное нормальное распределение $\mathcal{N}(0, \sigma^2 I)$ с нулевым средним и матрицей ковариации $\sigma^2 I$ , соответствующее априорному убеждению о том, что все коэффициенты регрессии должны быть небольшими числами, идеально — многие малозначимые коэффициенты должны быть нулями. Подставив плотность этого априорного распределения в формулу выше, и прологарифмировав, получим следующую оптимизационную задачу:

$\sum\limits_{i=1}^m \log \mathbb{P}\{y^{(i)} \mid x^{(i)}, \theta\} - \lambda \|\theta\|^2 \, \to \mbox{max},$

где $\lambda = \mbox{const} / {\sigma^2}$ — параметр регуляризации. Этот метод известен как L2-регуляризованная логистическая регрессия, так как в целевую функцию входит L2-норма вектора параметров для регуляризации.

Если вместо L2-нормы использовать L1-норму, что эквивалентно использованию распределения Лапласа, как априорного, вместо нормального, то получится другой распространённый вариант метода — L1-регуляризованная логистическая регрессия:

$\sum_{i=1}^m \log \mathbb{P}\{y^{(i)} \mid x^{(i)}, \theta\} - \lambda \|\theta\|_1 \, \to \mbox{max}.$

Применение

Эта модель часто применяется для решения задач классификации — объект $x$ можно отнести к классу $y=1$ , если предсказанная моделью вероятность $\mathbb{P}\{y = 1 \mid x\} > 0{,}5$ , и к классу $y=0$ в противном случае. Получающиеся при этом правила классификации являются линейными классификаторами.

Связанные методы

На логистическую регрессию очень похожа пробит-регрессия, отличающаяся от неё лишь другим выбором функции $f(z)$ . Softmax-регрессия обобщает логистическую регрессию на случай многоклассовой классификации, то есть когда зависимая переменная $y$ принимает более двух значений. Все эти модели в свою очередь являются представителями широкого класса статистических моделей — обобщённых линейных моделей.

См. также

Литература

Andrew Ng. Stanford CS229 Lecture Notes

Категории:

Регрессионный анализ
Машинное обучение
Эконометрика
Статистическое моделирование
Распознавание образов

Wikimedia Foundation. 2010.

Игры ⚽ Поможем решить контрольную работу

Полезное

Смотреть что такое "Логистическая регрессия" в других словарях:

логистическая регрессия — В ситуации, когда отклик – дихотомическая переменная, логистическая регрессия позволяет оценить зависимость вероятности одной из градаций отклика от совокупности предикторов X1,…,Xk. Логистическая зависимость ищется в виде =, где Y=b0 b1X1 …bkXk … Словарь социологической статистики
Регрессия — В Викисловаре есть статья «регрессия» Регрессия (лат. regressio «обратное движение, возвращение») многознач … Википедия
Логит-регрессия — В статистике логит регрессия (logit model) регрессионная модель оценки вероятности принятия биномиальной зависимой переменной одного из значений, использующая метод максимального правдоподобия (maximum likelihood estimation) логистической… … Википедия
Пробит-регрессия — (пробит модель, англ. probit) применяемая в различных областях (эконометрика, токсикология и др.) статистическая (нелинейная) модель и метод анализа зависимости качественных (в первую очередь бинарных) переменных от множества… … Википедия
Сигмоида — Логистическая кривая (сигмоида) Сигмоида это гладкая монотонная нелинейная S образная функция, которая часто применяется для «сглаживания» значений некоторой величины. Возрастающая … Википедия
Сигмоид — это гладкая монотонная нелинейная S образная функция, которая часто применяется для “сглаживания“ значений некоторой величины. Возрастающая функция. Часто под сигмоидом понимают логистическую функцию … Википедия
F-тест — F тестом или критерием Фишера (F критерием, φ* критерием) называют любой статистический критерий, тестовая статистика которого при выполнении нулевой гипотезы имеет распределение Фишера (F распределение). Статистика теста так или иначе… … Википедия
t-критерий Стьюдента — t критерий Стьюдента общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t критерия связаны с проверкой равенства средних… … Википедия
Статистика — Гистограмма (метод графических изображений) У этого термина существуют и другие значения, с … Википедия
Статистический вывод — (англ. statistical inference) использование выборочной информации для получения некоторого представления о свойствах генеральной совокупности[1]. В статистическом выводе на основе случайной выборки делаются предположения относительно… … Википедия

Словари и энциклопедии на Академике

Логистическая регрессия

Содержание

Описание

Подбор параметров

Регуляризация

Применение

Связанные методы

См. также

Литература

Полезное

Смотреть что такое "Логистическая регрессия" в других словарях:

Поделиться ссылкой на выделенное

Словари и энциклопедии на Академике

Википедия

Логистическая регрессия

Содержание

Описание

Подбор параметров

Регуляризация

Применение

Связанные методы

См. также

Литература

Полезное

Смотреть что такое "Логистическая регрессия" в других словарях:

Поделиться ссылкой на выделенное

Прямая ссылка: