Вероятностный латентно-семантический анализ

Вероятностный латентно-семантический анализ

Вероятностный латентно-семантический анализ (ВЛСА), также известный как вероятностое латентно-семантическое индексирование (ВЛСИ, особенно в области информационного поиска) — это статистический метод анализа корреляции двух типов данных. Данный метод являлется дальнейшим развитием латентно-семантического анализа. ВЛСА применяется в таких областях как информационный поиск, обработка естественного языка, машинное обучение и смежных областях. Данный метод был впервые опубликован в 1999 году Thomas Hofmann[1].

По сравнению со обычным латентно-семантическим анализом, который основан на линейной алгебре и является способом снижения размерности матрицы (как правило, с помощью разложения диагональной матрицы по сингулярным значениям - SVD), вероятностный латентно-семантический анализ основан на смешанном разложении, в свою очередь ведущем своё начало из модели скрытых классов. Данный подход более принципиален, поскольку имеет прочную основу в области статистики.

Варианты pLSA

  • Иерархические расширения:
    • Асимметричное: MASHA ("Multinomial ASymmetric Hierarchical Analysis", "полиномиальный асимметричный иерархический анализ") [2]
    • Симметричное: HPLSA ("Hierarchical Probabilistic Latent Semantic Analysis", «Иерархический вероятностный латентно-семантический анализ»), [3]
  • Генеративные модели: разработаны для решения часто критикуемых недостатков pLSA, а именно - того, что он является неправильной порождающей моделью для новых документов.
  • Данные высшего порядка: Хотя это редко обсуждается в научной литературе, pLSA, естественно, примени́м и для данных более высокого порядка (трёхуровневых и выше), т.е. он может моделировать совместное поведение трёх и более переменных. В симметричной формулировке, данной выше, это делается простым добавлением условного распределения вероятностей для этих дополнительных переменных. Это вероятностный аналог неотрицательной тензорной факторизации.

Примечания

  1. Thomas Hofmann, Probabilistic Latent Semantic Indexing, Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in en:Information Retrieval (SIGIR-99), 1999
  2. Alexei Vinokourov and Mark Girolami, A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections, in Information Processing and Management, 2002
  3. Eric Gaussier, Cyril Goutte, Kris Popat and Francine Chen, A Hierarchical Model for Clustering and Categorising Documents, in "Advances in Information Retrieval -- Proceedings of the 24th BCS-IRSG European Colloquium on IR Research (ECIR-02)", 2002

Wikimedia Foundation. 2010.

Игры ⚽ Поможем решить контрольную работу

Полезное


Смотреть что такое "Вероятностный латентно-семантический анализ" в других словарях:

  • Латентно-семантический анализ — Сюда перенаправляется запрос «Семантический анализ». На эту тему нужна отдельная статья. Латентно семантический анализ (ЛСА)  это метод обработки информации на естественном языке, анализирующий взаимосвязь между коллекцией документов и… …   Википедия

  • Вероятностое латентно-семантическое индексирование — Вероятностный латентно семантический анализ (ВЛСА), так же известный как вероятностое латентно семантическое индексирование (ВЛСИ, особенно в области информационного поиска)  это статистический метод анализа корреляции двух типов данных. Данный… …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»