TF-IDF

TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.

Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры близости документов при кластеризации.

Содержание

1 Структура формулы
2 Числовое применение
3 Пример
4 Применение в модели векторного пространства
5 Примечания
6 Литература
7 См. также
8 Ссылки

Структура формулы

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова $t_{i}$ в пределах отдельного документа.

$\mathrm{tf}(t,d) = \frac{n_i}{\sum_k n_k}$ ,

где $n_i$ есть число вхождений слова в документ, а в знаменателе — общее число слов в данном документе.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF.

$\mathrm{idf}(t, D) = \log \frac{|D|}{|(d_{i}\supset t_{i})|}$ ,^[1]

где

|D| — количество документов в корпусе;
$|(d_{i}\supset t_{i})|$ — количество документов, в которых встречается $t_{i}$ (когда $n_{i} \neq 0$ ).

Выбор основания логарифма в формуле не имеет значения, поскольку изменение основания приводит к изменению веса каждого слова на постоянный множитель, что не влияет на соотношение весов.

Таким образом, мера TF-IDF является произведением двух сомножителей:

$\mathrm{tfidf}(t,d,D) = \mathrm{tf}(t,d) \times \mathrm{idf}(t, D)$

Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.

Числовое применение

Существуют различные формулы, основанные на методе TF-IDF. Они отличаются коэффициентами, нормировками, использованием логарифмированных шкал. В частности, поисковая система Яндекс долгое время использовала нормировку по самому частотному термину в документе^{[источник не указан 734 дня]}.

Одной из наиболее популярных формул является формула BM25.

Пример

Если документ содержит 100 слов и слово^[2] «заяц» встречается в нём 3 раза, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100). Один из вариантов вычисления частоты документа (DF) определяется как количество документов содержащих слово «заяц», разделенное на количество всех документов. Таким образом, если «заяц» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10000000). Для расчета окончательного значения веса слова необходимо разделить TF на DF (или умножить на IDF). В данном примере, TF-DF вес для слова «заяц» в выбранном документе будет 300 (0,03/0,0001).

Применение в модели векторного пространства

Мера TF-IDF часто используется для представления документов коллекции в виде числовых векторов, отражающих важность использования каждого слова из некоторого набора слов (количество слов набора определяет размерность вектора) в каждом документе. Подобная модель называется векторной моделью (VSM) и даёт возможность сравнивать тексты, сравнивая представляющие их вектора в какой либо метрике (евклидово расстояние, косинусная мера, манхэттенское расстояние, расстояние Чебышева и др.), т. е. производя кластерный анализ.

Примечания

↑ В некоторых вариантах формулы не используется логарифмирование.
↑ Обычно перед анализом документа слова приводятся морфологическим анализатором к нормальной форме.

Литература

Дж Солтон. Динамические библиотечно-поисковые системы. М.: - Мир, 1979.
Salton, G. and McGill, M. J. 1983 Introduction to modern information retrieval. McGraw-Hill, ISBN 0-07-054484-0.
Salton, G., Fox, E. A. and Wu, H. 1983 Extended Boolean information retrieval. Commun. ACM 26, 1022—1036.
Salton, G. and Buckley, C. 1988 Term-weighting approaches in automatic text retrieval. Information Processing & Management 24(5): 513—523
Федоровский А.Н, Костин М. Ю. Mail.ru на РОМИП-2005 // в сб. «Труды РОМИП’2005» Труды третьего российского семинара по оценке методов информационного поиска. Под ред. И. С. Некрестьянова, стр. 106—124, Санкт-Петербург: НИИ Химии СПбГУ, 2005.
М. В. Губин. Модели и методы представления текстового документа в системах информационного поиска

См. также

Ссылки

Категории:

Обработка естественного языка
Функции ранжирования

Wikimedia Foundation. 2010.

Игры ⚽ Нужна курсовая?

Полезное

Смотреть что такое "TF-IDF" в других словарях:

IDF — or idf may stand for: *An Initialism: ** Intel Developer Forum ** Intermediate distribution frame (in Telephony and Computer networking) a cable rack that interconnects and manages the telecommunications wiring between a main distribution frame… … Wikipedia
IDF — (Israel Defense Force) armed forces of the state of Israel … English contemporary dictionary
IDF Spokesperson's Unit — The IDF Spokesperson s Unit ( *The IDF Spokesperson s Unit was established as the liaison between the IDF and the domestic and foreign media and general public. The unit performs a variety of functions, including serving as the spokesperson for… … Wikipedia
IDF Achzarit — Infobox Weapon name=IDF Achzarit Mk1 caption=Achzarit in Yad la Shiryon museum, Israel is vehicle=yes type=Heavy armored personnel carrier origin=ISR designer=Israeli Defence Forces Corps of Ordnance manufacturer=NIMDA production date=1988… … Wikipedia
IDF — Die Abkürzung IDF steht für: Israel Defense Forces, englisch für Israelische Streitkräfte Irish Defence Forces, englisch für Óglaigh na hÉireann, irische Streitkräfte Iceland Defense Force, eine bis 2006 bestehende US amerikanische Militäreinheit … Deutsch Wikipedia
IdF — Die Abkürzung IDF steht für: Israel Defense Forces, englisch für Israelische Streitkräfte Irish Defence Forces, englisch für Óglaigh na hÉireann, irische Streitkräfte Iceland Defense Force, eine bis 2006 bestehende US amerikanische Militäreinheit … Deutsch Wikipedia
Idf — Die Abkürzung IDF steht für: Israel Defense Forces, englisch für Israelische Streitkräfte Irish Defence Forces, englisch für Óglaigh na hÉireann, irische Streitkräfte Iceland Defense Force, eine bis 2006 bestehende US amerikanische Militäreinheit … Deutsch Wikipedia
IDF GOC Kommando Nord — Schulter abzeichen des Pikud Tzafon Das Nordkommando (hebräisch ‏פיקוד צפון‎, Pikud Tzafon) ist eines der drei Regionalkommandos der Israelischen Streitkräfte und neben der Kontrolle des Nordabschnitts des Landes für den Schutz der Grenzen zu… … Deutsch Wikipedia
IDF — Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom. Sigles d’une seule lettre Sigles de deux lettres > Sigles de trois lettres Sigles de quatre lettres … Wikipédia en Français
IDF 1 — IDF1 Création 20 mars 2008 Slogan « IDF1, la chaîne n°1 chez vous ! » Langue Français Pays d origine … Wikipédia en Français
IDF Puma — Pour les articles homonymes, voir Puma (homonymie). IDF Puma Puma en service avec le Battalion 601 du Corps de Génie israélien. Prod … Wikipédia en Français

Словари и энциклопедии на Академике

TF-IDF

Содержание

Структура формулы

Числовое применение

Пример

Применение в модели векторного пространства

Примечания

Литература

См. также

Ссылки

Полезное

Смотреть что такое "TF-IDF" в других словарях:

Поделиться ссылкой на выделенное

Словари и энциклопедии на Академике

Википедия

TF-IDF

Содержание

Структура формулы

Числовое применение

Пример

Применение в модели векторного пространства

Примечания

Литература

См. также

Ссылки

Полезное

Смотреть что такое "TF-IDF" в других словарях:

Поделиться ссылкой на выделенное

Прямая ссылка: