Статистика (функция выборки)

Статистика (функция выборки)

Статистика (в узком смысле) — это измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения.

В широком смысле термин (математическая) статистика обозначает область знаний (и соответствующие ей учебные дисциплины), в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных.

Содержание

Определение

Пусть задана случайная выборка x^m = (x_1,\ldots,x_m) наблюдений x_i \in X. Как правило, поскольку речь идет о задачах математической статистики, распределение элементов этой выборки известно исследователю не полностью (например, содержит неизвестные числовые параметры).

Статистикой называется произвольная измеримая функция выборки T : X^m \to \mathbb{R}, которая не зависит от неизвестных параметров распределения.

Условие измеримости статистики означает, что эта функция является случайной величиной, то есть определены вероятности ее попадания в интервалы и другие борелевские множества на прямой.

Наиболее содержательный аспект данного понятия, отличающий его от прочих случайных величин, зависящих от выборки, заключается в том, что от неизвестных параметров эта функция не зависит, то есть исследователь может по имеющимся в его распоряжении данным найти значение этой функции, а, следовательно — основывать на этом значении оценки и прочие статистические выводы.

Пример

Предположим, что имеется числовая выборка x^m = (x_1,\ldots,x_m), элементы которой имеют нормальное распределение \mathcal{N}(a,\sigma). Допустим, что значение параметра a (математического ожидания) известно, то есть это некоторое конкретное число, а значение среднеквадратичного отклонения \sigma неизвестно (и его требуется оценить). Для этого может быть использована следующая статистика:

T=\frac{1}{m}\sum_{i=1}^m(x_i-a)^2.

Однако если значение параметра a также неизвестно, то данная функция не является статистикой. В этом случае ее по-прежнему можно исследовать теоретически (например, доказывать, что математическое ожидание T равно \sigma^2), однако вычислить ее числовое значение нельзя, поэтому для получения непосредственных статистических выводов она не может быть использована. В этом случае оценка параметра \sigma строится другим способом (см. ниже).

Ниже приведены примеры некоторых часто используемых статистик. Все они предполагают, что наблюдения x_i являются числовыми, X = \mathbb{R}.

В последние годы активно развивается также статистика объектов нечисловой природы.

Статистики, используемые для оценки моментов (выборочные моменты)

Выборочное среднее

\bar x = \frac1m \sum_{i=1}^m x_i.

Выборочная дисперсия

s^2 = s_m^2 = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^2.

Несмещённая оценка дисперсии:

s^2 = s_m^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2.

Выборочный момент k-го порядка

M_k = \frac1m \sum_{i=1}^m x^k_i.

Выборочное среднее есть момент первого порядка.

Выборочный центральный момент k-го порядка

\overset{\circ}M_k = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^k.

Выборочная дисперсия есть центральный момент второго порядка.

Несмещённые оценки центральных моментов:

\overset{\bullet}M_2 = \frac{m}{m-1} \overset{\circ}M_2;
\overset{\bullet}M_3 = \frac{m^2}{(m-1)(m-2)} \overset{\circ}M_3;
\overset{\bullet}M_4 = \frac{m(m^2-2m+3)\overset{\circ}M_4 + 3m(2m-3)\overset{\circ}M_2^2}{(m-1)(m-2)(m-3)}.

Выборочный коэффициент асимметрии

\gamma_1 = \frac{\overset{\bullet}M_3}{\overset{\bullet}M_2^{3/2}} = \frac{\sqrt{m(m-1)}}{m-2} \left( \frac{\overset{\circ}M_3}{\overset{\circ}M_2^{3/2}} \right).

Если плотность распределения симметрична, то \gamma_1 = 0.

Если левый хвост распределения тяжелее, то \gamma_1 > 0.

Если правый хвост распределения тяжелее, то \gamma_1 < 0.

Выборочный коэффициент асимметрии используется для проверки распределения на симметричность, а также для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Выборочный коэффициент эксцесса

\gamma_2 = \frac{\overset{\bullet}M_4}{\overset{\bullet}M_2^2} - 3 = \frac{m^2-1}{(m-2)(m-3)}\left( \frac{\overset{\circ}M_4}{\overset{\circ}M_2^2} - 3 + \frac6{m+1}\right).

Нормальное распределение имеет нулевой эксцесс, \gamma_2 = 0.

Если хвосты распределения «легче», а пик острее, чем у нормального распределения, то \gamma_2 > 0.

Если хвосты распределения «тяжелее», а пик более «приплюснутый», чем у нормального распределения, то \gamma_2 < 0.

Выборочный коэффициент эксцесса часто используется для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Статистики, связанные с эмпирическим распределением

Эмпирическое распределение случайной величины x, построенное по случайной выборке x^m, есть функция

\displaystyle F_m(x) = \frac1m \sum_{i=1}^m \left[ x_i<x \right].

При любом фиксированном a\in\mathbb{R} значение F_m(a) можно рассматривать как статистику.

Порядковые статистики

Порядковые статистики основаны на вычислении вариационного ряда, который получается из исходной выборки x^m = (x_1,\ldots,x_m) путём упорядочивания её элементов по возрастанию:

x^{(1)} \leq x^{(2)} \leq \cdots \leq x^{(m)}.

Значение x^{(k)} называется k-й порядковой статистикой.

Выборочная квантиль

Выборочная \lambda-квантиль при 0<\lambda < 1 есть

x^{(m\lambda+1)}.

Размах выборки

\Delta = x^{(m)} - x^{(1)}.

Выборочная медиана

\mu = \begin{cases} \frac12 \left(x^{(k)}+x^{(k+1)}\right),& m=2k;\\ x^{(k+1)},& m=2k+1.\end{cases}

Ранговые статистики

Значение r_i называется рангом элемента выборки x_i, если x_i = x^{(r_i)}.

Ранговой статистикой называется любая статистика, которая является функцией от рангов элементов r_i, а не от их значений x_i. Переход от значений к их рангам позволяет строить непараметрические статистические тесты, которые не опираются на априорные предположения о функции распределения выборки. Они имеют гораздо более широкую область применения, чем параметрические статистические тесты.

Средний ранг

Аналогом выборочного среднего является средний ранг:

R = \frac1m \sum_{i=1}^m r_i.

Линейные ранговые статистики

Многие используемые на практике ранговые статистики принадлежат семейству линейных ранговых статистик, либо асимптотически приближаются к линейным при m\to\infty. Линейная ранговая статистика в общем случае имеет вид

T = \sum_{i=1}^m a(i,r_i),

где a(i,j) — произвольная заданная числовая матрица размера m \times m.

Литература

  • Вероятность и математическая статистика: Энциклопедия / Под ред. Ю. В. Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
  • Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.

Ссылки



Wikimedia Foundation. 2010.

Игры ⚽ Нужно сделать НИР?

Полезное


Смотреть что такое "Статистика (функция выборки)" в других словарях:

  • Статистика — 2.14. Статистика Статистика, как функция случайной величины, также является случайной величиной Источник: ГОСТ 15895 77: Статистические методы управления качеством продукции. Термины и определения …   Словарь-справочник терминов нормативно-технической документации

  • Статистика — Гистограмма (метод графических изображений) У этого термина существуют и другие значения, с …   Википедия

  • Статистика — (Statistics) Статистика это общетеоретическая наука, изучающая количественные изменения в явлениях и процессах. Государственная статистика, службы статистики, Росстат (Госкомстат), статистические данные, статистика запросов, статистика продаж,… …   Энциклопедия инвестора

  • Функция влияния — Наличие в выборках даже небольшого числа резко выделяющихся наблюдений способно фатально повлиять на результат статистического исследования (к примеру, того же метода наименьших квадратов или метода максимального правдоподобия), и может… …   Википедия

  • Функция правдоподобия — в математической статистике  это совместное распределение выборки из параметрического распределения, рассматриваемое как функция параметра. При этом используется совместная функция плотности (в случае выборки из непрерывного распределения)… …   Википедия

  • Статистика малых выборок (small-sample statistics) — Принято считать, что начало С. м. в. или, как ее часто называют, статистике «малых п», было положено в первом десятилетии XX века публикацией работы У. Госсета, в к рой он поместил t распределение, постулированное получившим чуть позже мировую… …   Психологическая энциклопедия

  • статистика качества — 3.1.17 статистика качества (Q): Функция пределов поля допуска, выборочного среднего и стандартного отклонения. Партия оценивается по результатам сравнения Q с контрольным нормативом k (14.2, 15.2 или С.5 приложения С). Источник …   Словарь-справочник терминов нормативно-технической документации

  • Статистика (значения) — Математика: Статистика   отрасль знаний, в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных. Математическая статистика  наука, разрабатывающая математические… …   Википедия

  • СТАТИСТИКА — 1. Вид деятельности, направленной на получение, обработку и анализ информации, характеризующей количественные закономерности жизни об ва во всем ее многообразии, в неразрывной связи с ее качественным содержанием. В более узком смысле слова… …   Российская социологическая энциклопедия

  • статистика качества Q — 3.18. статистика качества Q (quality statistic): Функция пределов поля допуска (3.13), выборочного среднего и стандартного отклонения выборки или процесса, используемая для принятия решения о приемке (отклонении) партии. [ИСО 3534 2:2006]… …   Словарь-справочник терминов нормативно-технической документации


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»