Пробит-регрессия

Про́бит-регрессия (пробит-модель, англ. probit) — применяемая в различных областях (эконометрика, токсикология и др.) статистическая (нелинейная) модель и метод анализа зависимости качественных (в первую очередь — бинарных) переменных от множества факторов, основанная на нормальном распределении (в отличие от, например, аналогичной логит-регрессии, основанной на логистическом распределении). В экономике (эконометрике) пробит-модели (наряду с логит-, гомпит- и др.) используются в моделях бинарного выбора или в моделях множественного выбора между различными альтернативами, для моделирования дефолтов компаний, в страховании жизни - для оценки вероятности смерти в зависимости, от возраста и пола и т. д. В токсикологии пробит-регрессия используется для оценки влияния дозы или концентрации тех или иных веществ на биологические объекты.

Пробит-модель позволяет оценить вероятность того, что анализируемая (зависимая) переменная примет значение 1 при заданных значениях факторов (то есть это оценка доли "единиц" при данном значении факторов). В пробит-модели пробит-функция от вероятности моделируется как линейная комбинация факторов (включая константу).Пробит-функцией принято называть функцию, обратную к интегральной функции (CDF) стандартного нормального распределения, то есть функцию, определяющую квантиль стандартного нормального распределения для заданной вероятности $x_q=\Phi^{-1}(q)$ .

Термин «probit» как производное от англ. probability unit предложил (впервые использовал) Честер Блисс (Chester Ittner Bliss [1899—1979])^[1] в своей статье, посвященной количественному анализу смертельного действия ядов на примере действия никотина на щавелевую тлю (Aphis rumicis L.)^[1]. С тех пор метод пробит-анализа особенно популярен в токсикологии. Само использование функции нормального распределения для описания зависимости «доза — эффект» восходит к английскому математику J. W. Trevan который показал, что интенсивность клеточного ответа на данную дозу лекарственного вещества подчиняется распределению Гаусса^[2].

Содержание

1 Сущность модели
2 Оценка параметров
3 Показатели качества и тестирование модели
4 Примеры
- 4.1 Токсикология
5 Вариации и обобщения
6 См. также
7 Примечания
8 Литература

Сущность модели

Пробит-модель является частным случаем модели бинарного выбора в которой используется нормальное распределение. А именно, пусть зависимая переменная $Y$ является бинарной, то есть может принимать только два значения, которые для упрощения предполагаются равными $1$ и $0$ . Например, $Y$ может означать наличие/отсутствие каких либо условий, успех или провал чего-либо, ответ да/нет в опросе и т. д. Пусть также имеется вектор регрессоров (факторов) $X$ , которые оказывают влияние на $Y$ . В пробит-модели предполагается, что вероятность того, что $Y=1$ определяется нормальным распределением, таким образом пробит-модель имеет вид:

$p(x)=P(Y=1 \mid X=x)= \Phi(x^Tb)$

где $\Phi$ — интегральная функция распределения (CDF) стандартного нормального распределения, $b$ — неизвестные параметры, которые требуется оценить.

Использование именно стандартного нормального распределения не ограничивает общности модели, так как возможное ненулевое среднее учтено в константе, которая обязательно присутствует в числе факторов, а возможная неединичная дисперсия учитывается за счет соответствующего нормирования всех коэффициентов b.

Как и в общем случае модели бинарного выбора в основе модели лежит предположение о наличии некоторой скрытой (не наблюдаемой) переменной $Y^*$ , в зависимости от значений которой наблюдаемая переменная $Y$ принимает значение $0$ или $1$ :

$Y= \begin{cases} 1, Y^*>0\\ 0, Y^*<0 \end{cases}$

Предполагается, что скрытая переменная зависит от факторов $X$ в смысле обычной линейной регрессии $y^*=x^Tb+\varepsilon$ , где случайная ошибка в данном случае имеет стандартное нормальное распределение $N(0,1)$ . Тогда

$p(x)=P(Y^*>0|X=x)=P(x^Tb+\varepsilon>0)=P(\varepsilon>-x^Tb)=1-\Phi(-x^Tb)=\Phi(x^Tb)$

Последнее равенство следует из симметричности нормального распределения.

Также модель может быть обоснована через полезность альтернатив — не наблюдаемой функции $U(y,x)$ , то есть фактически двух функций $U_1(x)=x^Tb_1+\varepsilon_1$ и $U_0(x)=x^Tb_0+\varepsilon_0$ соответственно для двух альтернатив. Функция разности полезностей альтернатив здесь выполняет роль той самой скрытой переменной.

Оценка параметров

Оценка обычно производится методом максимального правдоподобия. Пусть имеется выборка объёма $n$ факторов $X$ и зависимой переменной $Y$ . Для данного номера наблюдения используем индекс $t$ . Логарифмическая функция правдоподобия имеет вид:

$l(b)=\sum^n_{t=1} (y_t \ln \Phi (x^T_tb)+(1-y_t)\ln(1-\Phi(x^T_tb))$

Максимизация данной функции по неизвестным параметрам позволяет получить состоятельные, асимптотически эффективные и асимптотически нормальные оценки параметров. Последнее означает, что:

$\sqrt{n}(\hat b - b)\ \xrightarrow{d}\ \mathcal{N}(0,\,\Omega^{-1}),$

где $\Omega^{-1}$ — асимптотическая ковариационная матрица оценок параметров, которая определяется стандартным для метода максимального правдоподобия способом (через гессиан или градиент логарифмической функции правдоподобия в оптимальной точке):

$\Omega = \operatorname{E}\bigg[ \frac{\varphi^2(X'b)}{\Phi(X'b)(1-\Phi(X'b))}XX' \bigg]$ ,

где $\varphi$ — функция плотности вероятности (PDF) стандартного нормального распределения.

Матрица $\Omega$ неизвестна и используется её состоятельная оценка:

$\hat{\Omega} =\frac{1}{n} \sum^n_{t=1}\bigg[ \frac{\varphi^2(x^T_tb)}{\Phi(x^T_tb)(1-\Phi(x^T_tb))}x_tx^T_t \bigg]$

Обычно оценка модели производится в специализированных (статистических, эконометрических) программных продуктах, например, Statistica, EViews, Matrixer, R^[3], PSPP и др.^[4], хотя возможна «ручная» оценка, например в MS Office Excel, используя встроенный «Поиск решения» для максимизации логарифмической функции правдоподобия.

Показатели качества и тестирование модели

Для оценки качества построенной пробит-регрессии применяются стандартные для моделей бинарного выбора статистики:

Статистика отношения правдоподобия ( $LR$ ).

Псевдо-коэффициент детерминации ( $R^2_{pseudo})$

Коэффициент детерминации МакФаддена (индекс отношения правдоподобия)( $R^2_{McFadden},LRI$ )

Информационные критерии Акаике, Шварца, Ханнана-Куинна ( $AIC, BIC (SC), HQ$ ).

Статистика Хосмера-Лемешоу (Hosmer-Lemeshow, $HL$ ).

Статистика Эндрюса (Andrews)

Важное значение имеет анализ доли правильных прогнозов. В частности анализируется доля правильных и (или) неправильных прогнозов для значения каждого из значений зависимой переменной (0 и 1).

Примеры

Токсикология

Рассмотрим пробит-модель на примере действия инсектицида на насекомых^[5]^[6]. Зависимой бинарной переменной является переменная, принимающая значение 1, если данное насекомое погибло и 0 в противном случае. В выборке $n$ насекомых реакция на инсектицид одних насекомых не зависит от реакции других. В качестве фактора модели выступает «измеритель» дозы $x=\lg(d)$ , где $d$ -доза инсектицида. Вероятность того, что случайно отобранное из совокупности насекомое погибнет за данное время, равна:

$p(x) = \Phi(\alpha+\beta x)$

Если параметры модели $\alpha$ и $\beta$ известны (обозначим оценки $a$ и $b$ соответственно), то уровень дозы $x_p$ , при котором погибает некоторый процент насекомых, находится из уравнения

$a+bx_p=\Phi^{-1}(p)=q_p \Rightarrow x_p=(q_p-a)/b$ ,

где $q_p$ — квантиль уровня $p$ стандартного нормального распределения.

В частности, для уровня дозы $x_{50}$ , при которой погибает 50 % насекомых, $\lg d_{50}=x_{50}=-a/b \Rightarrow d_{50}=10^{-a/b}$ . Эту величину в токсикологии принято обозначать ЛД₅₀.

Можно также построить приблизительный доверительный интервал для $x_p$ следующим образом: $x_p\pm 2 \sigma_{x_p}$ . Дисперсию $\sigma^2_{x_p}$ можно оценить приблизительно следующим образом:

$\sigma^2_{x_p}=(\sigma^2_a+2 x_p \sigma_{ab}+x^2_p \sigma^2_b)/b^2$ ,

где $\sigma^2_a, \sigma^2_b$ — оценка дисперсии оценок параметров модели, $\sigma_{ab}$ — оценка ковариации между оценками параметров.

Более точный доверительный интервал можно оценить исходя теоремы Феллера, в соответствии с которой 95%-е доверительные границы для $x_p$ являются корнями λ₁, λ₂ квадратного уравнения

$\lambda^2(b^2-t^2\sigma^2_b)-2\lambda(b^2x_p+t^2\sigma_{ab})+(b^2x^2_p-t^2\sigma^2_a)=0$ ,

где t=t₉₅ — 95%-я точка распределения Стьюдента.

Вариации и обобщения

На практике встречаются ситуации, когда необходимо исследовать не две альтернативы, а несколько альтернатив. Если эти альтернативы неупорядоченные, то говорят о множественной (multinominal) пробит-модели. В случае упорядоченных альтернатив (например, 5-балльная оценка качества услуги или товара) говорят о порядковой или упорядоченной (ordered) пробит-модели.

См. также

Примечания

↑ ¹ ² Bliss CI. (1934). «The method of probits». Science 79 (2037): 38–39. DOI:10.1126/science.79.2037.38. PMID 17813446.
↑ Trevan, J.W. 1927. The error of determination of toxicity. Proc. Royal Soc. 101B: 483—514. цитировано по Альберт А. Избирательная токсичность. Физико-химические основы терапии. Пер. с англ. В 2 томах. Т. 1. — М: Медицина, 1989, С. 247. ISBN 5-225-01519-0
↑ R Data Analysis Examples — Probit Regression
↑ en:Comparison_of_statistical_packages#Regression
↑ Finney, D.J. Probit Analysis (3rd edition). — Cambridge University Press, Cambridge, UK, 1971. — ISBN 052108041X
↑ Справочник по прикладной статистике. В 2-х т. Т. 1: Пер. с англ. / Под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. — М.: Финансы и статистика, 1989. — 510 с. — ISBN 5-279-00245-3

Литература

Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2007. — 504 с. — ISBN 978-5-7749-0473-0.

Носко В.П. Эконометрика для начинающих (Дополнительные главы). – М.: ИЭПП, 2005. С. 379.

Категории:

Регрессионный анализ
Статистическое моделирование
Эконометрика

Wikimedia Foundation. 2010.

Игры ⚽ Поможем написать курсовую

Полезное

Смотреть что такое "Пробит-регрессия" в других словарях:

Регрессия — В Викисловаре есть статья «регрессия» Регрессия (лат. regressio «обратное движение, возвращение») многознач … Википедия
Логистическая регрессия — или логит регрессия (англ. logit model) это статистическая модель, используемая для предсказания вероятности возникновения некоторого события путём подгонки данных к логистической кривой. Содержание 1 Описание 1.1 Подбор параметров … Википедия
Цензурированная регрессия — (англ. Censored regression) регрессия, с зависимой переменной, наблюдаемой с ограничением (цензурированием) возможных значений. При этом модель может быть цензурирована только с одной стороны (снизу или сверху) или с обоих сторон.… … Википедия
Логит-регрессия — В статистике логит регрессия (logit model) регрессионная модель оценки вероятности принятия биномиальной зависимой переменной одного из значений, использующая метод максимального правдоподобия (maximum likelihood estimation) логистической… … Википедия
Модель бинарного выбора — Модель бинарного выбора применяемая в эконометрике модель зависимости бинарной переменной (принимающей всего два значения 0 и 1) от совокупности факторов. Построение обычной линейной регрессии для таких переменных теоретически… … Википедия
Модель упорядоченного выбора — (упорядоченная регрессия, англ. ordered choice) применяемая в эконометрике модель с упорядоченной (с ранжированными значениями) дискретной зависимой переменной, в качестве которой могут выступать, например, оценки чего либо по… … Википедия
Статистическое моделирование — Статистическое и эконометрическое моделирование исследование объектов познания на их статистических моделях; построение и изучение моделей реально существующих предметов, процессов или явлений (например: экономических процессов в… … Википедия
Gretl — GNU Regression, Econometrics and Time series Library … Википедия

Словари и энциклопедии на Академике

Пробит-регрессия

Содержание

Сущность модели

Оценка параметров

Показатели качества и тестирование модели

Примеры

Токсикология

Вариации и обобщения

См. также

Примечания

Литература

Полезное

Смотреть что такое "Пробит-регрессия" в других словарях:

Поделиться ссылкой на выделенное

Словари и энциклопедии на Академике

Википедия

Пробит-регрессия

Содержание

Сущность модели

Оценка параметров

Показатели качества и тестирование модели

Примеры

Токсикология

Вариации и обобщения

См. также

Примечания

Литература

Полезное

Смотреть что такое "Пробит-регрессия" в других словарях:

Поделиться ссылкой на выделенное

Прямая ссылка: