Извлечение информации

Извлечение информации

Извлечение информации (англ. information extraction) — это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов.

Извлечение информации является разновидностью информационного поиска, связанного с обработкой текста на естественном языке. Примером извлечения информации может быть поиск деловых визитов — формально это записывается так: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита), — из новостных лент, таких как: «Вчера, 1 апреля 2007 года, представители корпорации Пепелац Интернэшнл посетили офис компании Гравицап Продакшнз». Главная цель такого преобразования — возможность анализа изначально «хаотичной» информации с помощью стандартных методов обработки данных.[1] Более узкой целью может служить, например, задача выявить логические закономерности в описанных в тексте событиях.[2]

В современных информационных технологиях роль такой процедуры, как извлечение информации, всё больше возрастает — из-за стремительного увеличения количества неструктурированной (без метаданных) информации, в частности, в Интернете. Эта информация может быть сделана более структурированной посредством преобразования в реляционную форму или добавлением XML разметки.[3] При мониторинге новостных лент с помощью интеллектуальных агентов как раз и потребуются методы извлечения информации и преобразования её в такую форму, с которой будет удобнее работать позже.

Типичная задача извлечения информации: просканировать набор документов, написанных на естественном языке, и наполнить базу данных выделенной полезной информацией. Современные подходы извлечения информации используют методы обработки естественного языка, направленные лишь на очень ограниченный набор тем (вопросов, проблем) — часто только на одну тему. Например, «Конференция по Пониманию сообщений» (en:Message Understanding Conference, MUC) — это конференция соревновательного характера и в прошлом она фокусировалась на таких вопросах:

  • MUC-1 (1987), MUC-2 (1989): Военно-морские операции.
  • MUC-3 (1991), MUC-4 (1992): Терроризм в латиноамериканских странах.
  • MUC-5 (1993): Венчурные операции в области микроэлектроники.
  • MUC-6 (1995): Новостные статьи об изменениях в управляющих процессах.
  • MUC-7 (1998): Отчёты о запусках спутников.

Тексты на естественном языке могут потребовать некоего предварительного преобразования на язык (например, RDF — Resource Description Framework), понятный для компьютера.

Типичные подзадачи извлечения информации:

  • Распознавание именованных элементов (сущностей), например: имён людей, названий организаций, географических названий, событий, временны́х и денежных обозначений и пр.
  • Разрешение анафоры и кореференций : поиск связей, относящихся к одному и тому же объекту. Типичный случай таких ссылок — местоименная анафора.
  • Выделение терминологии: нахождение для данного текста ключевых слов и словосочетаний (коллокаций).
  • Автореферирование: выделение из текста смысловой, эмотивной, оценочной и пр. информации. Бывает генеративным и декларативным.

Примечания

  1. Под обработкой данных может пониматься, помимо прочего, и просто накопление их в базе данных.
  2. Этой задачей занимается интеллектуальный анализ данных (data mining).
  3. Концепция развития Интернета, где к каждому документу присоединяется файл с метаданными в XML формате, называется семантической паутиной и считается очень перспективной; но стоит отметить: это не то же самое, что преобразование самого документа.

См. также

Ссылки

Иноязычные



Wikimedia Foundation. 2010.

Игры ⚽ Нужна курсовая?

Полезное


Смотреть что такое "Извлечение информации" в других словарях:

  • извлечение информации — — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом EN information acquisition …   Справочник технического переводчика

  • извлечение информации о ресурсах — Это извлечение контента путем поиска относящихся к нему контентов, основанного на таких ключевых словах, как титры контента, авторы, расписания или имена актеров (МСЭ Т F.741). [http://www.iks media.ru/glossary/index.html?glossid=2400324]… …   Справочник технического переводчика

  • извлечение информации из данных — разведка данных Технология анализа хранилищ данных, базирующаяся на методах ИИ и инструментах поддержки принятия решений. Процесс обнаружения корреляции, тенденций, шаблонов, связей и категорий. Выполняется путем тщательного исследования данных с …   Справочник технического переводчика

  • извлечение данных — Совокупность алгоритмов и компьютерных методов обработки информации, используемых для выборки данных из специальных хранилищ или баз знаний. Часто включает в себя процедуры анализа данных. В отличие от процедуры поиска термин “извлечение… …   Справочник технического переводчика

  • Извлечение — Вызов состояния словом, поведением, жестами или любыми стимулами. Сбор информации через прямое наблюдение невербальных сигналов или вопросы метамодели. Простейший способ извлечь какое нибудь эмоциональное состояние это попросить человека… …   Большая психологическая энциклопедия

  • извлечение ключа — выделение ключа Например, из памяти компьютера или шифратора. [[http://www.rfcmd.ru/glossword/1.8/index.php?a=index d=23]] Тематики защита информации Синонимы выделение ключа EN key extraction …   Справочник технического переводчика

  • Извлечение — Вызов состояния словом, поведением, жестами или любыми стимулами. Сбор информации через прямое наблюдение невербальных сигналов или вопросы метамодели …   Словарь нейролингвистического программирования

  • Извлечение — нлп Вызов состояния словом, поведением, жестами или любыми стимулами. Сбор информации через прямое наблюдение невербальных сигналов или вопросы метамодели …   Универсальный дополнительный практический толковый словарь И. Мостицкого

  • Поиск информации — Информационный поиск (ИП) (англ. Information retrieval) процесс поиска неструктурированной документальной информации и наука об этом поиске. Содержание 1 История 2 Информационный поиск как процесс …   Википедия

  • Представление информации — Представление знаний  вопрос, возникающий в когнитологии (науке о мышлении), в информатике и в искусственном интеллекте. В когнитологии он связан с тем, как люди хранят и обрабатывают информацию. В информатике  основная цель  подбор представления …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»