- СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ
- СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ
-
- один из осн. разделов матем. статистики, <посвящённый оцениванию параметров теоретич. моделей по косвенным измерениямили распределений случайной величины х по наблюдению её реализаций. <Если предполагается, что распределение является элементом параметрич. семейства
, то возникает задача параметрического оценивания. Когда вид распределениянеизвестен, говорят о задаче непараметрического оценивания. При параметрич. <оценивании различают два подхода: точечное оценивание и интервальноеоценивание.
Точечное оценивание. Пусть распределение случайной величины х - заданнаяф-ция
с неизвестными параметрами а, а x = (x1,x2,...,xN)- вектор возможных значений х. Точечное оценивание заключаетсяв выборе ф-ции
,значение к-рой при заданном аг можно использовать вместо параметра . в качестве его приближённого значения. Ф-цию
наз. оценкой параметра а, принцип выбора ф-ции - методом оценивания. <Очевидно, что можно предложить много оценок, поэтому необходимо изучитьследующие осн. свойства оценок.
Состоятельность. При увеличении объёма N наблюдений (измерений)оценка должна приближаться к истинному значению параметра. Оценку
называют состоятельной по вероятности, если для любых
,•
существует такое N, что вероятность реализации неравенства
будет меньше
Примером состоятельной оценки служит выборочное среднее
,к-рое является оценкой ср. значения величины
,если ф-ция ллотности вероятности р(х )имеет конечную дисперсию.
Смещение. Под смещением оценки
принято понимать отклонение её ср. значения
от истинного значения
.Оценку
наз. <несмещённой, если при любых N и а имеем
, или
. Несмещённая оценка обычно предпочтительнее смещённой, т. к. смещениеявляется систематич. ошибкой в оценке, к-рая зависит от истинного значенияпараметра а и поэтому редко поддаётся вычислению. Выборочное среднееявляется несмещённой оценкой, тогда как выборочная дисперсия
являетсясмещённой оценкой дисперсии
Эффективность. Простейшей характеристикой точности оценки является ср. <значение квадрата её расстояния от истинного значения:
где
- дисперсия оценки
,равная
Дисперсия характеризует «ширину» распределения, т. е. «шумовую» составляющуюошибки
оценки
. Поэтому в классе оценок с данным смещением
предпочтительнее оценка с мин. дисперсией. Справедливо неравенство Крамера- Рао:
к-рое и определяет максимально достижимую точность (в смысле
в классе оценок с данным смещением
по выборке х. Величину
где
- ф-ция плотности распределения
,называют количеством информации по Р. Фишеру (R. Fisher) о параметре ав оценке Величину
где
- ф-ция правдоподобия, а
- плотность ф-ции распределения х, называют количеством информациипо Р. Фишеру о параметре в выборке х. В классе несмещённых оценок
и информац. смысл величин
и
становитсяочевидным: их значение определяет минимально достижимое расстояние
от а. Первое неравенство в (1), (3) превращается в равенство лишь тогда, <когда ф-ция плотности распределения оценки имеет экспоненц. форму:
то и второе неравенство в (1), (3) превращается в равенство. Такую оценкуназывают эффективной в смысле Крамера - Рао. Оценку, для к-рой выполняетсяравенство (5), т. е. такую, в к-рой количество информации о параметре . такое же, как в самой выборке х, называют достаточной статистикой. <Условием существования достаточной статистики
является факторизация ф-ции правдоподобия:
.Неравенство Крамера - Рао полезно тем, что позволяет ещё на стадии планированияэксперимента оценить максимально достижимую точность «измерения» параметровизучаемых распределений.
Требования (3) и (4) являются достаточно жёсткими, поэтому при конечных N эфф. оценки редки. В связи с этим рассматривают поведение
при
и наз. <оценку асимптотически эффективной, если при
.Заметим, что асимптотич. несмещённость следует из состоятельности оценки. <Рассмотрим наиб. общие и распространённые методы получения точечных оценок.
Метод максимума правдоподобия (подробнее см. Максимального правдоподобияметод).
В этом методе вероятность реализации вектора наблюдений х,
, после подстановки в неё реализовавшихся значений х рассматриваюткак ф-цию параметров а и называют ф-цией правдоподобия:
. В качестве оценки в методе макс. правдоподобия для вектора параметров а берут то значение
,к-рое соответствует макс. значению ф-ции правдоподобия. При нек-рых общихпредположениях оценки в методе макс. правдоподобия состоятельны, асимптотическиэффективны и асимптотически нормально распределены. При конечных N оценкав методе макс. правдоподобия имеет оптим. свойства только в том случае, <когда существует достаточная статистика. Метод наименьших квадратов (подробнеесм. Наименьших квадратов метод), В этом методе в качестве оценкивектора параметров а берут то значение
,к-рое соответствует минимуму квадратичной формы.
где D - матрица ошибок измерений х п. При нек-рыхобщих предположениях оценка в методе наим. квадратов состоятельна и асимптотическинормально распределена, но не является асимптотически эффективной. Если
- линейные ф-ции параметров а, то в классе линейных несмещённыхоценок оценки
в методе наим. квадратов имеют наим. дисперсии.
Метод моментов. Пусть mi - выборочные моменты,
- моменты ф-ции плотности распределения, . В методе моментов выбирают в
качестве оценки параметров а решение
системы ур-ний
.Оценки в методе моментов состоятельны, асимптотически несмещены, но неявляются асимптотически эффективными,
-метод. Если объём выборки х велик и данные х п сгруппированыв гистограмму, то для оценки параметров а используют
-метод, <являющийся частным случаем метода наим. квадратов. Пусть У; - число наблюдений, <попавших в Z-канал гистограммы, а
- их ожидаемое число:
В качестве оценки параметров а берут значение
,соответствующее минимуму квадратичной формы
либо модифицированный
-метод
Оценки в
-методеи модифицированном
-методесостоятельны, асимптотически нормально распределены и асимптотически эффективны. <Своё название эти методы получили по той причине, что при больших Yl (приближение нормального распределения)
распределено по
-распределениюс числом степеней свободы k = L - I -1, где L - число каналовгистограммы, I - число параметров.
Интервальное оценивание состоит в отыскании интервала [a1,a2],к-рый с заданной вероятностью
содержит истинное значение параметра а. Др. словами, нужно найтитакой интервал [a1,a2] (как ф-цию вектора наблюдений х), к-рый «накроет» с вероятностью В истинное значение а приданном значении х. Это т. н. доверительный интервал с вероятностнымсодержанием
(или коэф. доверия
).Такое определение неоднозначно, его обычно доопределяют требованием минимальностидлины среди всех интервалов с коэф. доверия
Пусть распределение
зависит от одного параметра а и
- к.-л. точечная оценка а, ф-ция плотности вероятности к-рой равна
.Тогда центр. доверит. интервал определяется как решение ур-ний
Такой доверит. интервал может и не быть минимальным. Однако, если точечнаяоценка
асимптотически эффективна, то при больших N этот интервал будетблизок к минимальному.
Более общий подход к получению доверит. интервалов заключается в поискетакой ф-ции от оценки и параметра, распределение к-рой не зависит от искомогопараметра. Напр., пусть вектор оценок
распределён по многомерному Гаусса распределению со средним . и матрицей вторых моментов D. Тогда квадратичная форма
распределена по закону
(см. Распределение), к-рое не зависит от а. Задаваясь вероятностью
того, что
,находим
и доверит. область для а:
, имеющую вид гиперэллипсоида с центром в точке
Этот пример имеет практич. применение, т. к. асимптотически, при больших N, мн. методы оценивания дают нормально распределённые оценки параметров.
Непараметрическое оценивание. В этом случае не делают к.-л. предположенийо плотности ф-ции распределения. В качестве точечной оценки часто используютгистограмму. В этом методе оценивания числовую ось, на к-рой определены х п, делят на ряд областей rj (j =1,2,...,k), называемых каналами гистограммы. Тогда
задают константами
в каждой области rj, причём
.Здесь C(N) - коэф. нормировки, gj(x) - индикаторная ф-цияобласти rj:
Более формально оценки ф-ции плотности вероятности записывают в виде
Гистограмма является простой в вычислит. плане, но смещённой и несостоятельнойоценкой. Поэтому используют более сложные, но состоятельные оценки, напр. <метод ближайших соседей (см. Непараметрические методы статистики).В качестве точечной оценки ф-ции распределения можно взять выборочную ф-циюраспределения:
где подразумевается, что х 1, ..., х N расположеныв порядке их возрастания. Эта оценка оказывается несмещённой и состоятельной. <Ф-ция распределения Р(х )допускает и интервальную оценку. Рассмотримстатистику
, для к-рой асимптотич. распределением является
=
. Т. к. это распределение не зависит от Р(х), можно вычислить
, для к-рого вероятность
равна
, и задать доверит. зону для Р(х):
Считается, что асимптотич. распределение справедливо при N
80.
Лит.: Митропольский А. К., Техника статистических вычислений,2 изд., М., 1971; Р а о С. Р., Линейные статистические методы и их применения, <пер. с англ., М., 1968; Кендалл М., Стьюрт А., Статистические выводы исвязи, пер. с англ., М., 1973; Статистические методы в экспериментальнойфизике, пер. с англ., М., 1976. В. П. Жигунов, С. В. Клименко.
Физическая энциклопедия. В 5-ти томах. — М.: Советская энциклопедия. Главный редактор А. М. Прохоров. 1988.
.