Поиск наилучшей проекции

Поиск наилучшей проекции

Поиском наилучшей проекции (англ. Projection Pursuit) называется статистический метод, состоящий в нахождении такой проекции многомерных данных, для которой достигает максимума некоторая функция качества проекции.

Содержание

Область применения

Хотя люди хорошо визуально воспринимают информацию, они способны анализировать картинки только малых размерностей. Когда анализируют многомерные данные, образное восприятие неудобно. Эту проблему решают, рассматривая проекции данных размерности два или три. Для визуализации проекций данных используют обычные приемы: диаграммы рассеяния, гистограммы, ящиковые диаграммы и так далее.

Идея метода

Надо решить, какая проекция будет наиболее «интересной». Один из подходов к автоматизации выбора наиболее "интересной" проекции основывается на следующих соображениях (для наглядности будем рассматривать проекцию на прямую). Проекцию данных будем считать «неинтересной», если гистограмма имеет нормальную плотность распределения, как на рисунке 1.

Рисунок 1.JPG

Проекции с двухвершинным распределением, как на рисунке 2,

Рисунок 2.JPG

будем считать «интересными».

Двухвершинное (бимодальное) распределение считаем более интересным, так как оно указывает на возможное присутствие двух кластеров в данных.

Индекс проекции

Для автоматизации поиска наиболее "интересной" проекции используют специально подобранную функцию качества, которую часто называют индексом. Наилучшей объявляют ту проекцию, для которой функция качества максимальна. Поиск проекции многомерных данных, основанный на максимизации некоторой функции качества проекции называется поиском наилучшей проекции (Projection Pursuit). Выбор индекса определяет, насколько полезен будет результат. Опишем несколько вариантов функции качества проекции.

Поиск одномерной проекции

Введем обозначения. Пусть Х - р-мерный случайный вектор, далее будем предполагать, что вектор центрирован, то есть E(X)=0.

Обозначим α - р-мерный числовой вектор, нахождение этого вектора составляет задачу поиска наилучшей проекции, которая будет иметь вид a^TX.

В данном случае матрица данных имеет размерность p\times1, вектор X и есть матрица данных. Тогда индекс I(a) определяется как дисперсия линейной комбинации a^TX, при дополнительном условии нормировки a^Ta=1.

Распространённые индексы проекции

Подход Фридмана и Тьюки

Джером Фридман и Джон Тьюки (1974) измеряли, насколько «интересно» многомерное распределение Х, рассматривая индекс

I_{FT,h}(a)=n^{-1}\sum_{j=1}^n\hat{f}_{h,a}^2(a^TX_i),

где \hat{f}_{h,a} обозначает ядерную оценку плотности, полученную по спроектированным данным,

\hat{f}_{h,a}(z)=n^{-1}\sum_{j=1}^nK_h(z-a^TX_j).

Если многомерная случайная величина X имеет нормальное распределение, то каждая проекция z=a^TX имеет стандартное нормальное распределение, пока \|a\|=1 и X центрировано. Изменения в I_{FT,h}(a) относительно a указывают отклонения от нормальности.

Подход Hodges и Lehman

Индекс проекции определяется как \int(f')^2, где f – плотность распределения многомерной случайной величины X, которая является матрицей данных. Очень часто плотность нельзя посчитать явно или гораздо удобнее вместо плотности использовать ее оценку.

Hodges и Lehman (1956) показали, что, если E(X) = 0 и D(X) = 1, то минимум \int(f')^2 достигается на плотности Епанечникова, которая имеет вид f(z)=\max{\{0, c(b^2 - z^2)\}}, где c= \frac{3}{20\surd5} и b= \surd5 . Это - параболическая функция плотности, которая равна нолю вне интервала (-\surd5,\surd5). Таким образом, при использовании такого индекса наименее интересной будет являться плотность Епанечникова. Большое значение индекса указывает большое отклонение от параболической формы.

Альтернативный индекс Hodges и Lehman (1956) основан на максимизации энтропии, то есть \int(-f\log f) .

Если E(X)=0 и D(X)=1, то минимум индекса \int (f\log f) достигается на стандартной нормальной плотности. Это свойство является достоинством индекса, по сравнению с предыдущим вариантом. Действительно, интуитивно кажется, что нормальное распределение "менее интересно", чем распределение Епанечникова. Таким образом, используя индекс \int (f\log f), мы измеряем отклонение распределения от нормального.

Подход Фишера

В качестве еще одного индекса можно рассмотреть информацию Фишера, \int(f')^2/f. Вычисляя индекс энтропии, мы встречаемся с большими вычислительными сложностями, при выполнении которых приходится затрачивать много времени, что, конечно же, не очень удобно.

Подход Jones и Sibson

Jones и Sibson (1987) предложили рассмотреть отклонения от нормальной плотности как f(x)=\varphi(x)\{1+\varepsilon(x)\},

где функция \varepsilon удовлетворяет условиям

\int\varphi(u)\varepsilon(u)u^{-r}\emph{d}u=0, при r = 0,1,2.

Чтобы упростить вычисление индекса Jones и Sibson , удобно перейти к кумулянтам \kappa_3=\mu_3=E(X^3) , \kappa_4=\mu_4=E(X^4)-3 .

Поскольку стандартная нормальная плотность удовлетворяет условию \kappa_3=\kappa_4=0, индекс должен, по крайней мере, включить информацию до уровня симметрических отклонений (\kappa_3 или \kappa_4 не ноль) от нормальности. Самые простые из таких индексов - положительная определенная квадратичнаяная форма от \kappa_3 и \kappa_4 . При этом должна присутствовать инвариантность при замене знака данных, начиная с a^TX и -a^TX , мы должны получить тот же самый вид отклонения от нормальности. Заметим, что \kappa_3 нечетно, то есть \kappa_3(a^TX)=-\kappa_3(-a^TX). А \kappa_4 четно, то есть \kappa_4(a^TX)=\kappa_4(-a^TX). Квадратичная форма от \kappa_3 и \kappa_4, измеряющая отклонение от нормальности, не включает смешанный коэффициент \kappa_3\kappa_4. Следовательно, индекс, предложенный Jones и Sibson (1987) - это

I_{JS}(a)=\{\kappa_3^2(a^TX)+\kappa_4^2(a^TX)/4\}/12.

Этот индекс фактически измеряет различие \int f\log f-\int\varphi\log \varphi.

Проблемы реализации

Метод поиска наилучшей проекции может давать интересные результаты, но существует и много недостатков его реализации. Во-первых, трудно придумать правильную интерпретацию полученных результатов. Во-вторых, реализация метода может выполняться длительное время и требовать достаточно большого количества оперативной памяти компьютера. Кроме того, до сих пор остаются различия между человеческим визуальным представлением о наилучшей проекции и решением полученным при поиске наилучшей проекции. Эти проблемы пока не разрешены, "канонического" варианта метода нет, идут активные исследования.

Литература

  • Peter J. Huber, Projection Pursuit (Invited paper), Harvard University, The Annalas of Statistics, 13, No. 2 (1985), 435—475.
  • Jerome H. Friedman, Exploratory projection pursuit. J. Amer. Statist. Assoc., 82 (1987) 249—266. Software online.

См. также


Wikimedia Foundation. 2010.

Смотреть что такое "Поиск наилучшей проекции" в других словарях:

  • Метод главных компонент — (англ. Principal component analysis, PCA)  один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретен К. Пирсоном (англ. Karl Pearson) в 1901 г. Применяется во многих областях,… …   Википедия

  • Истинное ортогональное разложение — Метод Главных Компонент (англ. Principal components analysis, PCA)  один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретен К. Пирсоном (англ. Karl Pearson) в 1901 г. Применяется во многих… …   Википедия

  • Метод Главных Компонент — (англ. Principal components analysis, PCA)  один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретен К. Пирсоном (англ. Karl Pearson) в 1901 г. Применяется во многих областях, таких как… …   Википедия

  • Преобразование Карунена-Лоэва — Метод Главных Компонент (англ. Principal components analysis, PCA)  один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретен К. Пирсоном (англ. Karl Pearson) в 1901 г. Применяется во многих… …   Википедия

  • Преобразование Кархунена-Лоэва — Метод Главных Компонент (англ. Principal components analysis, PCA)  один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретен К. Пирсоном (англ. Karl Pearson) в 1901 г. Применяется во многих… …   Википедия

  • Преобразование Карунена - Лоэва — Метод Главных Компонент (англ. Principal components analysis, PCA)  один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретен К. Пирсоном (англ. Karl Pearson) в 1901 г. Применяется во многих… …   Википедия

  • Преобразование Кархунена - Лоэва — Метод Главных Компонент (англ. Principal components analysis, PCA)  один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретен К. Пирсоном (англ. Karl Pearson) в 1901 г. Применяется во многих… …   Википедия

  • Преобразование Хотеллинга — Метод Главных Компонент (англ. Principal components analysis, PCA)  один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретен К. Пирсоном (англ. Karl Pearson) в 1901 г. Применяется во многих… …   Википедия

  • Основы теории и история развития компоновки танка — Введение         Современный читатель популярных военно технических изданий избалован обилием материалов по истории создания, боевому применению, особенностям конструкции вооружения и военной техники. Мой опыт общения с фанатами военной техники… …   Энциклопедия техники


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»