TF

TF

TF

Содержание

Определение

TF(Term Frequency) — частота данного слова в данном документе.

Формула

tf = {n_j\over\sum_{k} n_k}\,\!
В числителе стоит количество появлений рассматриваемого слова, в знаменателе — сумма количеств появлений всех слов.

Описание

Эта величина используется для предотвращения увеличения веса более длинных документов, в которых слово может встречаться большее количество раз, несмотря на свою, возможно, небольшую важность в документе. TF показывает истинную важность слова для документа.

Пример

Для примера рассмотрим два текста и покажем полезность частоты слова [[топор]], в сравнении с его количеством появления. Для простоты будем за слово считать только существительные, либо прилагательные образованные от них.

Отрывок из романа Федора Михайловича Достоевского «Преступление и Наказание»:

Иголка и нитки были у него уже давно приготовлены и лежали в столике, в бумажке. Что же касается петли, то это была очень ловкая его собственная выдумка: петля назначалась для топора. Нельзя же было по улице нести топор в руках. А если под пальто спрятать, то все-таки надо было рукой придерживать, что было бы приметно. Теперь же, с петлей, стоит только вложить в нее лезвие топора, и он будет висеть спокойно, подмышкой изнутри, всю дорогу. Запустив же руку в боковой карман пальто, он мог и конец топорной ручки придерживать, чтоб она не болталась; а так как пальто было очень широкое, настоящий мешок, то и не могло быть приметно снаружи, что он что-то рукой, через карман, придерживает.

Отрывок из статьи в Википедии «Боевой топор»:

Древнейшее подобное топору орудие, — «тесло», — появилось около 20 тыс. лет назад и представляло собой широкую дубину, в отверстие которой вклеивался острый камень. То есть, в отсутствие возможности сверления камня, не топорище вставлялось в топор, а топор в топорище.

Вычислим TF(топор) для обоих текстов.

Топор — 4
Рука — 4
Пальто — 3
Петля — 3
Карман — 2
Иголка — 1
Нитка — 1
Стол — 1
Бумажка — 1
Выдумка — 1
Улица — 1
Лезвие — 1
Подмышка — 1
Дорога — 1
Ручка — 1
Мешок — 1
Топор — 3
Камень — 2
Камень — 2
Топорище — 2
Орудие — 1
Тесло — 1
Дубина — 1
Отверстие — 1
Возможность — 1
Сверление — 1
Отсутствие — 1
\,\!tf =  {4\over27} \,\!tf = {3\over16}

В отрывке из романа "Преступление и Наказание" слово топор присутствует 4 раза, в то время как в отрывке из статьи в Википедии всего 3. При использовании количества появлений в качестве меры, вес романа будет больше веса статьи. Поэтому требуется нормирование количества появлений, то есть частота появлений. TF статьи больше TF романа, поэтому если пользователю необходимо найти информацию боевом топоре, то поисковая система использующая TF сработает лучше.


Wikimedia Foundation. 2010.

Игры ⚽ Поможем написать реферат

Полезное



Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»