Расстояние Махаланобиса

Расстояние Махаланобиса

В математической статистике расстояние Махалано́биса — мера расстояния между векторами случайных величин, обобщающая понятие евклидова расстояния. Предложено индийским статистиком Махаланобисом (англ. Prasanta Chandra Mahalanobis) в 1936 году[1]. С помощью расстояния Махаланобиса можно определять сходство неизвестной и известной выборки. Оно отличается от расстояния Евклида тем, что учитывает корреляции между переменными и инвариантно к масштабу.

Содержание

Определение

Формально, расстояние Махаланобиса от многомерного вектора x = ( x_1, x_2, x_3, \dots, x_N )^T до множества со средним значением \mu = ( \mu_1, \mu_2, \mu_3, \dots , \mu_N )^T и матрицей ковариации S определяется следующим образом:

D_M(x) = \sqrt{(x - \mu)^T S^{-1} (x-\mu)}.\, [2]

Расстояние Махаланобиса также можно определить как меру несходства между двумя случайными векторами  \vec{x} и  \vec{y} из одного распределения вероятностей с матрицей ковариации S :

 d(\vec{x},\vec{y})=\sqrt{(\vec{x}-\vec{y})^T S^{-1} (\vec{x}-\vec{y})}.\,

Если матрица ковариации является единичной матрицей, то расстояние Махаланобиса становится равным расстоянию Евклида. Если матрица ковариации диагональная (но необязательно единичная), то получившаяся мера расстояния носит название нормализованное расстояние Евклида:

 d(\vec{x},\vec{y})=
\sqrt{\sum_{i=1}^N  {(x_i - y_i)^2 \over \sigma_i^2}}

Здесь \sigma_iсреднеквадратичное отклонение  x_i от  y_i в выборке.

Интуитивное объяснение

Рассмотрим задачу определения вероятности того, что некоторая точка в N-мерном евклидовом пространстве принадлежит множеству, которое задано набором точек, определённо принадлежащих данному множеству. Найдем центр масс множества. Интуитивно понятно, что чем ближе заданная точка к центру масс, тем больше вероятность того, что она принадлежит множеству.

Однако также стоит учитывать, на какого размера области рассредоточены точки множества, чтобы понять, насколько значимо расстояние между заданной точкой и центром масс. Самый простой подход заключается в вычислении среднеквадратичного отклонения точек множества от центра масс. Если расстояние между заданной точкой и центром масс меньше среднеквадратичного отклонения, то можно заключить, что вероятность принадлежности точки множеству высока. Чем дальше точка, тем больше вероятность того, что она не принадлежит множеству.

Этот интуитивный подход можно определить математически через расстояние между заданной точкой и множеством по формуле  {x - \mu} \over \sigma . С помощью подстановки этого значения в нормальное распределение можно найти вероятность принадлежности точки множеству.

Недостаток такого подхода заключается в использовании предположения о том, что точки множества сферически распределены вокруг центра масс (то есть равномерно по всем измерениям). Если же распределение явно не сферическое (например, эллипсоидальное), то было бы естественным учитывать в вероятности принадлежности не только расстояние до центра масс, но и направление на него. В направлении короткой оси эллипсоида заданная точка должна быть ближе к центру масс, чтобы принадлежать множеству, в то время как в направлении длинной оси она может быть дальше.

Для записи этого в математическом виде эллипсоид, лучшим образом представляющий вероятностное распределение множества, может быть задан матрицей ковариаций множества. Расстояние Махаланобиса — это просто расстояние между заданной точкой и центром масс, делённое на ширину эллипсоида в направлении заданной точки.

Приложения

Расстояние Махаланобиса было сформулировано во время работы над идентификацией сходства черепов, основанной на измерениях 1927 года.[3]

Расстояние Махаланобиса широко используется в кластерном анализе и методах классификации. Оно тесно связано с распределением T-квадрат Хотеллинга (англ. Hotelling's T-squared distribution), используемым в многомерном статистическом тестировании, и линейным дискриминантным анализом Фишера, используемым в машинном обучении с учителем. [4]

Чтобы использовать расстояние Махаланобиса в задаче определения принадлежности заданной точки одному из N классов, нужно найти матрицы ковариации всех классов. Как правило, это делается на основе известных выборок из каждого класса. Затем необходимо подсчитать расстояние Махаланобиса от заданной точки до каждого класса и выбрать класс, для которого это расстояние минимально. Используя вероятностную интерпретацию, можно показать, что это эквивалентно выбору класса с помощью метода максимального правдоподобия.

Также расстояние Махаланобиса используется для нахождения выбросов, например, в задаче построения линейной регрессии. Точка, имеющая наибольшее расстояние Махаланобиса до остального множества заданных точек, считается имеющей наибольшую значимость, так как она имеет наибольшее влияние на кривизну и на коэффициенты уравнения регрессии. Кроме того, расстояние Махаланобиса используется в задаче определения многомерных выбросов и при работе с активными моделями формы.

Примечания

  1. Mahalanobis, P C (1936). «On the generalised distance in statistics». Proceedings of the National Institute of Sciences of India 2 (1): 49–55. Проверено 2008-11-05.
  2. De Maesschalck, R.; D. Jouan-Rimbaud, D.L. Massart (2000) The Mahalanobis distance. Chemometrics and Intelligent Laboratory Systems 50:1–18
  3. Mahalanobis, P. C. (1927). Analysis of race mixture in Bengal. J. Proc. Asiatic Soc. of Bengal. 23:301-333.
  4. McLachlan, Geoffry J (1992) Discriminant Analysis and Statistical Pattern Recognition. Wiley Interscience. ISBN 0471691151 p. 12

Ссылки


Wikimedia Foundation. 2010.

Игры ⚽ Нужен реферат?

Полезное


Смотреть что такое "Расстояние Махаланобиса" в других словарях:

  • МАХАЛАНОБИСА РАССТОЯНИЕ — величина где X, Y векторы, А матрица (T транспонирование). М. р. используется в многомерном статистич. анализе, в частности при проверке гипотез и классификации наблюдений. Введено П. Махаланобисом [1], к рый использовал в качестве расстояния… …   Математическая энциклопедия

  • Матрица расстояний — это квадратная матрица типа объект объект (порядка n) содержащая в качестве элементов расстояния между объектами в метрическом пространстве. Свойства матрицы являются отражением свойств самих расстояний[1]: симметричность относительно диагонали,… …   Википедия

  • Активная модель формы — Активные модели формы (англ. Active shape models, ASMs)  это статистические модели формы объектов, которые могут многократно деформироваться, для подгонки к объекта, присутствующему на новом изображении. Эти модели были разработаны… …   Википедия

  • Калькутта — город, адм. ц. штата Зап. Бенгалия, Индия. Основан в 1696 г. на месте трех деревень, одна из которых называлась Каликатта, совр. Калькутта. Название от имени Кали, супруги индуистского бога Шивы, и и. е. основы ката жилище , т. е. обитель богини… …   Географическая энциклопедия

  • Калькутта — Собственно Калькутта ядро огромной и продолжающей быстро расти агломерации Большой Калькутты. Агломерация состоит из нескольких… …   Города мира


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»