Частотный словарь

Частотный словарь

Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости. Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.

Содержание

Построение частотных списков

Обычно частотные словари строятся на основе корпусов текстов: берется набор текстов, представительный для языка в целом, для некоторой предметной области или данного автора (см. Частотный словарь Грибоедова) и из него извлекаются словоформы, леммы и части речи (последние извлекаются в случае, если корпус имеет морфологическую разметку).

Проблемы при создании частотных списков заключаются в:

  • воспроизводимости (будут ли результаты идентичны на другом аналогичном корпусе),
  • всплесках частоты отдельных слов (частота слова в одном тексте может повлиять на его позицию во частотном списке),
  • сложности определения позиции менее частотных слов, что не дает возможности ранжировать их рационально; например, слово белиберда входит в 20000 наиболее частотных слов, в то время, как слово хрюкнуть находится за пределами списка первых 40 тысяч.

Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий (Закон Ципфа), в результате чего небольшое количество слов встречается очень часто, а подавляющее большинство слов имеют очень невысокую частоту. Частота слова и (самого частотного слова русского языка) примерно в 10 раз выше частоты слова о, которое в свою очередь встречается в 100 раз чаще таких обыденных слов как путешествие, старость или мода.

Для описания всплесков частоты можно использовать метафору хоббита (Адам Килгаррифф изначально использовал относительно редкое английское слово whelk, вид морского моллюска, англ. welk): если несколько текстов в корпусе о хоббитах, то это слово будет употребляться почти в каждом предложении. В результате его частота в этих текстах будет сравнима с частотой служебных слов, но и в частотном списке большого корпуса, в который входят такие тексты, это слово будет иметь неправдоподобно высокий ранг. Такие всплески частоты можно оценивать с помощью коэффициента вариации: отношения стандартного отклонения к средней частоте.

Сравнение корпусов

Частотные словари обеспечивают возможность сравнить два корпуса, чтобы определить слова, наиболее характерные для каждого из них. В связи с тем, что размеры корпусов могут быть различны, более надёжная оценка частоты слов основывается на приведении их к чмс (частота на миллион словоформ, англ. ipm, instances per million words). Слово и имеет частоту около 30000 чмс, слово старость — около 30.

Для определения набора ключевых слов, отличающих один корпус от другого можно использовать разные статистические меры: хи-квадрат, отношение правдоподобия (англ. Likelihood-ratio test) и т. п.

См. также

Ссылки


Wikimedia Foundation. 2010.

Игры ⚽ Нужно решить контрольную?

Полезное


Смотреть что такое "Частотный словарь" в других словарях:

  • частотный словарь — Языковой словарь, содержащий перечень слов, расположенных по степени их употребления в речи. [ГОСТ 7.60 2003] Тематики издания, основные виды и элементы EN frequency vocabulary DE Häufigkeitswörterbuch …   Справочник технического переводчика

  • частотный словарь — частотный словарь: Языковой словарь, содержащий перечень слов, расположенных по степени их употребления в речи Источник: ГОСТ 7.60 2003: Система стандартов по инфо …   Словарь-справочник терминов нормативно-технической документации

  • ЧАСТОТНЫЙ СЛОВАРЬ — вид словаря, в котором приводятся числовые характеристики употребительности слов (словоформ, словосочетаний) какого либо языка, в т. ч. языка писателя, какого либо произведения и т. п. Обычно в качестве характеристики употребительности… …   Большой Энциклопедический словарь

  • Частотный словарь —         вид словаря (См. Словарь) (обычно одноязычного), в котором лексические единицы характеризуются с точки зрения степени их употребительности в совокупности текстов, представительных либо для языка в целом, либо для отдельного… …   Большая советская энциклопедия

  • частотный словарь — Rus: частотный словарь Deu: Häufigkeitswörterbuch Eng: frequency vocabulary Языковой словарь, содержащий перечень слов, расположенных по степени их употребления в речи. ГОСТ 7.60 [3.2.4.3.5.2.2.6] …   Словарь по информации, библиотечному и издательскому делу

  • частотный словарь — вид словаря, в котором приводятся числовые характеристики употребительности слов (словоформ, словосочетаний) какого либо языка, в том числе языка писателя, каких либо произведений и т. п. Обычно в качестве характеристики употребительности… …   Энциклопедический словарь

  • Частотный словарь как философская картина мира — (frequency of words as a philosophical world picture)    Частотный словарь языка показывает, какие смыслы и отношения наиболее необходимы людям для выражения мыслей и, следовательно, содержит в себе систему логических и эпистемологических… …   Проективный философский словарь

  • частотный словарь — 1. Конкретная вероятностно статистическая модель изучаемого подъязыка на лексическом (или соответственно любом другом) уровне. 2. Модель истинного распределения истинных вероятностей (грамматических ожиданий, частоты слов, грамматических форм и т …   Толковый переводоведческий словарь

  • частотный словарь — см. словарь лингвистический …   Словарь лингвистических терминов

  • ЧАСТОТНЫЙ СЛОВАРЬ — лингвистический словарь, в котором отобраны наиболее употребительные в речи слова (обычно в пределах нескольких тысяч). Слова обычно приводятся в двух списках: в порядке убывающей частотности употребления и в алфавитном порядке, с указанием… …   Профессиональное образование. Словарь


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»