Векторная модель

Векторная модель

Ве́кторная моде́ль (англ. vector space model) — в информационном поиске представление коллекции документов векторами из одного общего для всей коллекции векторного пространства.

Векторная модель является основой для решения многих задач информационного поиска, как то: поиск документа по запросу, классификация документов, кластеризация документов.

Содержание

Определение

Документ в векторной модели рассматривается как неупорядоченное множество термов. Термами в информационном поиске называют слова, из которых состоит текст, а также такие элементы текста, как, например, 2010, II-5 или Тянь-Шань.

Различными способами можно определить вес терма в документе — "важность" слова для идентификации данного текста. Например, можно просто подсчитать количество употреблений терма в документе, так называемую частоту терма, — чем чаще слово встречается в документе, тем больший у него будет вес. Если терм не встречается в документе, то его вес в этом документе равен нулю.

Все термы, которые встречаются в документах обрабатываемой коллекции, можно упорядочить. Если теперь для некоторого документа выписать по порядку веса́ всех термов, включая те, которых нет в этом документе, получится вектор, который и будет представлением данного документа в векторном пространстве. Размерность этого вектора, как и размерность пространства, равна количеству различных термов во всей коллекции, и является одинаковой для всех документов.

Более формально

dj = (w1j, w2j, …, wnj)

где dj — векторное представление j-го документа, wij — вес i-го терма в j-м документе, n — общее количество различных термов во всех документах коллекции.

Располагая таким представлением для всех документов, можно, например, находить расстояние между точками пространства и тем самым решать задачу подобия документов — чем ближе расположены точки, тем больше похожи соответствующие документы. В случае поиска документа по запросу, запрос тоже представляется как вектор того же пространства — и можно вычислять соответствие документов запросу.

Методы взвешивания термов

Для полного определения векторной модели необходимо указать, каким именно образом будет отыскиваться вес терма в документе. Существует несколько стандартных способов задания функции взвешивания:

  • булевский вес — равен 1, если терм встречается в документе и 0 в противном случае;
  • tf (term frequency, частота терма) — вес определяется как функция от количества вхождений терма в документе;
  • tf-idf (term frequency - inverse document frequency, частота терма - обратная частота документа) — вес определяется как произведение функции от количества вхождений терма в документ и функции от величины, обратной количеству документов коллекции, в которых встречается этот терм.

Литература

  • Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze An Introduction to Information Retrieval Draft. Online edition. Cambridge University Press. - 2009. - 544 pp.
  • Daniel Jurafsky, James H. Martin Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Second Edition. Pearson Education International. - 2009. - 1024 pp.

См. также

  • Apache Lucene — программная реализация информационного поиска, основанная на векторной модели.

Wikimedia Foundation. 2010.

Игры ⚽ Поможем решить контрольную работу

Полезное


Смотреть что такое "Векторная модель" в других словарях:

  • векторная модель — vektorinis modelis statusas T sritis fizika atitikmenys: angl. vector model vok. Vektormodell, n rus. векторная модель, f pranc. modèle vectoriel, m …   Fizikos terminų žodynas

  • векторная модель (пространственных) данных — Модель пространственных данных, включающая описание координатных данных пространственных объектов и, возможно, топологических отношений между ними. [ГОСТ Р 52438 2005] Тематики географические информационные системы …   Справочник технического переводчика

  • векторная модель (пространственных) данных — 37 векторная модель (пространственных) данных: Модель пространственных данных, включающая описание координатных данных пространственных объектов и, возможно, топологических отношений между ними. Источник: ГОСТ Р 52438 2005: Географические… …   Словарь-справочник терминов нормативно-технической документации

  • Скан-векторная модель — теоретическая модель параллельных вычислений, в которой: скалярный процессор имеет доступ к памяти, содержащей скалярные величины; и векторный процессор имеет доступ к памяти, содержащей векторы с произвольным количеством координат. По английски …   Финансовый словарь

  • Модель исправления ошибок — Модель исправления (коррекции) ошибок (англ. ECM, Error Correction Model) модель временных рядов, в которой краткосрочная динамика корректируется в зависимости от отклонения от долгосрочной зависимости между переменными. В виде ECM формально …   Википедия

  • векторная нетопологическая модель (пространственных) данных — Векторная модель пространственных данных, не включающая в себя описание топологических отношений между пространственными объектами. [ГОСТ Р 52438 2005] Тематики географические информационные системы …   Справочник технического переводчика

  • векторная топологическая модель (пространственных) данных — Векторная модель пространственных данных, включающая в себя описание топологических отношений между пространственными объектами. [ГОСТ Р 52438 2005] Тематики географические информационные системы …   Справочник технического переводчика

  • векторная нетопологическая модель (пространственных) данных — 38 векторная нетопологическая модель (пространственных) данных: Векторная модель пространственных данных, не включающая в себя описание топологических отношений между пространственными объектами. Источник: ГОСТ Р 52438 2005: Географические… …   Словарь-справочник терминов нормативно-технической документации

  • векторная топологическая модель (пространственных) данных — 39 векторная топологическая модель (пространственных) данных: Векторная модель пространственных данных, включающая в себя описание топологических отношений между пространственными объектами. Источник: ГОСТ Р 52438 2005: Географические… …   Словарь-справочник терминов нормативно-технической документации

  • Векторная диаграмма — графическое изображение меняющихся по закону синуса (косинуса) величин и соотношений между ними при помощи направленных отрезков векторов. Векторные диаграммы широко применяются в электротехнике, акустике, оптике, теории колебаний и так далее.… …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»