- Обработка естественного языка
-
Обработка естественного языка (Natural Language Processing, NLP) — общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза естественных языков. Применительно к искусственному интеллекту анализ означает понимание языка, а синтез — генерацию грамотного текста. Решение этих проблем будет означать создание более удобной формы взаимодействия компьютера и человека.
Содержание
Задачи и ограничения
Теоретически, построение естественно-языкового интерфейса для компьютеров — очень привлекательная цель. Ранние системы, такие как SHRDLU, работая с ограниченным «миром кубиков» и используя ограниченный словарный запас, выглядели чрезвычайно хорошо, вдохновляя этим своих создателей. Однако оптимизм быстро иссяк, когда эти системы столкнулись со сложностью и неоднозначностью реального мира.
Понимание естественного языка иногда считают AI-полной задачей, потому как распознавание живого языка требует огромных знаний системы об окружающем мире и возможности с ним взаимодействовать. Само определение смысла слова «понимать» — одна из главных задач искусственного интеллекта.
Сложности понимания
В русском языке
Качество понимания зависит от множества факторов: от языка, от национальной культуры, от самого собеседника и т. д. Вот некоторые примеры сложностей, с которыми сталкиваются системы понимания текстов.
- Предложения «Мы отдали бананы обезьянам, потому что они были голодные» и «Мы отдали бананы обезьянам, потому что они были перезрелыми» похожи по синтаксической структуре. В одном из них местоимение они относится к обезьянам, а в другом — к бананам. Правильное понимание зависит от знаний компьютера, какими могут быть бананы и обезьяны. По нормам русского языка второе предложение некорректно , потому что в нем местоимение ссылается не на последнее подходящее слово, однако в устной речи такое предложение вполне может встретиться.
- Свободный порядок слов может привести к совершенно иному толкованию фразы: «Бытие определяет сознание» — кто кого определяет?
- В русском языке свободный порядок компенсируется развитой морфологией, служебными словами и знаками препинания, но в большинстве случаев для компьютера это представляет дополнительную проблему.
- В речи могут встретиться неологизмы, например, глагол «Пятидесятирублируй» — то есть высылай 50 рублей. Система должна уметь отличать такие случаи от опечаток и правильно их понимать.
- Правильное понимание омонимов — ещё одна проблема. При распознавании речи, помимо прочих, возникает проблема фонетических омонимов. Во фразе «Серый волк в глухом лесу встретил рыжую лису» выделенные слова слышатся одинаково, и без знания, кто глухой, а кто рыжий, не обойтись (Кроме того, что лиса может быть рыжей, а лес — глухим, лес также может быть рыжим (характеристика, в данном случае обозначающая преобладающий цвет листвы в лесу), в то время как лиса может быть глухой, что порождает дополнительную проблему, вытекающую из предыдущей.)
Главные задачи
- Синтез речи
- Распознавание речи
- Анализ текста
- Синтез текста
- Машинный перевод
- Вопросно-ответные системы
- Информационный поиск
- Извлечение информации
- Анализ тональности текста
- Анализ высказываний
- Упрощение текста
- Технология перевода
- Робот (программа)
- Реферирование
Программное обеспечение
- AlchemyAPI
- Expert System S.p.A.
- General Architecture for Text Engineering (GATE)
- Modular Audio Recognition Framework
- MontyLingua
- Natural Language Toolkit (NLTK)
См. также
- Математическая лингвистика
- Информационный поиск
- Виртуальный собеседник
- Абстрактный универсальный переводчик
Ссылки
- Русскоязычное сообщество в Живом Журнале
- Каталог лингвистических программ и ресурсов в Cети (по состоянию на 2002 год)
Для улучшения этой статьи по лингвистике желательно?: - Найти и оформить в виде сносок ссылки на авторитетные источники, подтверждающие написанное.
- Дополнить статью (статья слишком короткая либо содержит лишь словарное определение).
Категории:- Прикладная лингвистика
- Обработка естественного языка
- Распознавание речи
Wikimedia Foundation. 2010.