- Метод Леска
-
Алгоритм Леска — классический алгоритм разрешения многозначности, основанный на знаниях, предложенный Майклом Леском в 1986 году.
Содержание
Принцип работы
Для каждого значения рассматриваемого слова подсчитывается число слов упомянутых как в словарном определении данного значения, так и в ближайшем контексте рассматриваемого вхождения слова. В качестве наиболее вероятного значения выбирается то, для которого такое пересечение оказалось больше. В качестве слов Lesk рассматривал буквенные цепочки, что оправданно для английского языка.
В качестве примера можно рассмотреть два значения слова кошка:
- кошка1 — домашнее животное из породы кошачьих,
- кошка2 — предмет альпинистского снаряжения.
и текст «в Китае выведены новые породы кошек». С определением (1) у этого текста одно общее слово — породы, а с определением (2) ни одного. Следовательно, алгоритм Леска выберет значение кошка1.
Работы
В последнее время появилось большое количество работ, предлагающих использовать модификации алгоритма Леска. В этих работах выдвигаются идеи, связанные с дополнительным использованием различных словарей (тезаурусы, словари синонимов) или моделей (морфологические, синтаксические и т. п.), см., например[1]:
- Kwong, 2001;
- Nastase and Szpakowicz, 2001;
- Wilks and Stevenson, 1998, 1999;
- Mahesh et al., 1997;
- Cowie et al., 1992;
- Yarowsky, 1992;
- Pook and Catlett, 1988;
- Kilgarriff & Rosensweig, 2000,
- Alexander Gelbukh, Grigori Sidorov, 2004.
Точность метода
Относительно больших экспериментов на проверку этого метода не проводилось, кроме как на корпусе книги «Гордость и предубеждение» и газеты Associated Press. Результат варьировался от 50 % до 70 %.
Примечания
- ↑ Необходимо заметить, что все эти работы, кроме (Nastase and Szpakowicz, 2001), ориентированы на обработку обычных текстов, а не словарей, и ни одна не использует в качестве материала для обработки именно толковый словарь. Кроме того, практически всегда дело ограничивается достаточно небольшими экспериментами и не производится обработка достаточно больших массивов данных.
Категории:- Обработка естественного языка
- Компьютерная лингвистика
- Word sense disambiguation
Wikimedia Foundation. 2010.