Вероятностный латентно-семантический анализ

Толкование

Вероятностный латентно-семантический анализ: Вероятностный латентно-семантический анализ (ВЛСА), также известный как вероятностое латентно-семантическое индексирование (ВЛСИ, особенно в области информационного поиска) — это статистический метод анализа корреляции двух типов данных. Данный метод являлется дальнейшим развитием латентно-семантического анализа. ВЛСА применяется в таких областях как информационный поиск, обработка естественного языка, машинное обучение и смежных областях. Данный метод был впервые опубликован в 1999 году Thomas Hofmann^[1].

По сравнению со обычным латентно-семантическим анализом, который основан на линейной алгебре и является способом снижения размерности матрицы (как правило, с помощью разложения диагональной матрицы по сингулярным значениям - SVD), вероятностный латентно-семантический анализ основан на смешанном разложении, в свою очередь ведущем своё начало из модели скрытых классов. Данный подход более принципиален, поскольку имеет прочную основу в области статистики.

Варианты pLSA

Иерархические расширения:

Асимметричное: MASHA ("Multinomial ASymmetric Hierarchical Analysis", "полиномиальный асимметричный иерархический анализ") ^[2]

Симметричное: HPLSA ("Hierarchical Probabilistic Latent Semantic Analysis", «Иерархический вероятностный латентно-семантический анализ»), ^[3]

Генеративные модели: разработаны для решения часто критикуемых недостатков pLSA, а именно - того, что он является неправильной порождающей моделью для новых документов.

Скрытое распределение Дирихле - добавляет Дирихле, основанном на распределении тем по документам

Данные высшего порядка: Хотя это редко обсуждается в научной литературе, pLSA, естественно, примени́м и для данных более высокого порядка (трёхуровневых и выше), т.е. он может моделировать совместное поведение трёх и более переменных. В симметричной формулировке, данной выше, это делается простым добавлением условного распределения вероятностей для этих дополнительных переменных. Это вероятностный аналог неотрицательной тензорной факторизации.

Примечания

↑ Thomas Hofmann, Probabilistic Latent Semantic Indexing, Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in en:Information Retrieval (SIGIR-99), 1999

↑ Alexei Vinokourov and Mark Girolami, A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections, in Information Processing and Management, 2002

↑ Eric Gaussier, Cyril Goutte, Kris Popat and Francine Chen, A Hierarchical Model for Clustering and Categorising Documents, in "Advances in Information Retrieval -- Proceedings of the 24th BCS-IRSG European Colloquium on IR Research (ECIR-02)", 2002

Категория:
Информационный поиск

Игры ⚽ Поможем решить контрольную работу

Полезное

Смотреть что такое "Вероятностный латентно-семантический анализ" в других словарях:

Латентно-семантический анализ — Сюда перенаправляется запрос «Семантический анализ». На эту тему нужна отдельная статья. Латентно семантический анализ (ЛСА) это метод обработки информации на естественном языке, анализирующий взаимосвязь между коллекцией документов и… … Википедия
Вероятностое латентно-семантическое индексирование — Вероятностный латентно семантический анализ (ВЛСА), так же известный как вероятностое латентно семантическое индексирование (ВЛСИ, особенно в области информационного поиска) это статистический метод анализа корреляции двух типов данных. Данный… … Википедия

Словари и энциклопедии на Академике

Вероятностный латентно-семантический анализ

Варианты pLSA

Примечания

Полезное

Смотреть что такое "Вероятностный латентно-семантический анализ" в других словарях:

Поделиться ссылкой на выделенное

Словари и энциклопедии на Академике

Википедия

Вероятностный латентно-семантический анализ

Варианты pLSA

Примечания

Полезное

Смотреть что такое "Вероятностный латентно-семантический анализ" в других словарях:

Поделиться ссылкой на выделенное

Прямая ссылка: