Инвертированный индекс

Инвертированный индекс

Инвертированный индекс (англ. inverted index) — структура данных, в которой для каждого слова коллекции документов в соответствующем списке перечислены все места в коллекции, в которых оно встретилось. Инвертированный индекс используется для поиска по текстам.

Применение

Опишем как решается задача нахождения документов в которых встречаются все слова из поискового запроса. При обработке однословного поискового запроса, ответ уже есть в инвертированном индексе — достаточно взять список соответствующий слову из запроса. При обработке многословного запроса берутся списки, соответствующие каждому из слов запроса и пересекаются.

Обычно в поисковых системах, после построения с помощью инвертированного индекса списка документов, содержащих слова из запроса идет ранжирование документов из списка.

Пример

Пусть у нас есть корпус из трех текстов T_0="it is what it is", T_1="what is it" and T_2="it is a banana", тогда инвертированный индекс будет выглядеть следующим образом:

"a":      {2}
"banana": {2}
"is":     {0, 1, 2}
"it":     {0, 1, 2}
"what":   {0, 1}

Здесь цифры обозначают номера текстов, в которых встретилось соответствующее слово. Тогда отработка поискового "what is it" запроса даст следующий результат \{0,1\} \cap \{0,1,2\} \cap \{0,1,2\} = \{0,1\}.

Особенности применения в реальных поисковых системах

В списке вхождений слова в документы помимо id документов обычно также указываются факторы (TF-IDF, бинарный фактор: «попало слово в заголовок или не попало», другие факторы), которые используются при ранжировании. Индекс может строиться не по всем словоформам, а по леммам (по каноническим формам слов). Cтоп-слова можно исключить и не строить для них индекс, считая что каждое из них встречается почти во всех документах корпуса. Для ускорения вычисления пересечений используют эвристику skip-pointer-ов. При обработке запросов, содержащих много слов, используют функцию кворума, которая пропускает на следующую стадию ранжирования часть документов, в которых встретились не все слова из запроса.


Wikimedia Foundation. 2010.

Игры ⚽ Поможем написать курсовую

Полезное


Смотреть что такое "Инвертированный индекс" в других словарях:

  • N-грамм — определяется как последовательность из n элементов.[1] С семантической точки зрения, это может быть последовательность звуков, слогов, слов или букв. На практике чаще встречается N грамм как ряд слов. Последовательность из двух последовательных… …   Википедия

  • ПИТАНИЕ — ПИТАНИЕ. Содержание: I. Питание как соц. гигиеничес ая проблема. Про яема П. в свете исторического разв и тин человеческого общества ....... . . 38 Проблема П. в капиталистическом обществе 42 Производство продуктов П. в царской России и в СССР …   Большая медицинская энциклопедия

  • ИНФОРМАЦИИ НАКОПЛЕНИЕ И ПОИСК — Информация является одной из основных потребностей современного человека; она нужна для работы, путешествий, приобретения товаров, принятия решений, выполнения школьных заданий, заботы о здоровье и многочисленных других видов деятельности.… …   Энциклопедия Кольера


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»