Лингвистический корпус

Лингвистический корпус

Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов. Термин введён в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому начиная с 80-х способствовало развитие вычислительной техники.

Лингвистическим корпусом называют собрание текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).

Целесообразность создания текстовых корпусов объясняется:

  • представлением лингвистических данных в реальном контексте;
  • достаточно большой представительностью данных (при большом объёме корпуса);
  • возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач.

Содержание

История

Первым большим компьютерным корпусом считается Брауновский корпус (БК, англ. Brown Corpus, BC), который был создан в 1960-е годов в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках. По модели близкой к БК в 1970-е годы был создан частотный словарь русского языка Засориной, построенный на основе корпуса текстов объемом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция.

Размер в один миллион слов достаточен для лексикографического описания только самых частотных слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так каждое из таких обыденных слов англ. polite (вежливый) или англ. sunshine (солнечный свет) встречается в БК всего 7 раз, выражение англ. polite letter лишь один раз, а такие устойчивые выражения как англ. polite conversation, smile, request ни разу.

По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объемами текстов, в 1980-е годы в мире было предпринято несколько попыток создать корпуса большего размера. В Великобритании такими проектами были Банк Английского (Bank of English) и Британский Национальный Корпус (British National Corpus, BNC). В СССР таким проектом был Машинный Фонд русского языка, создававшийся по инициативе А. П. Ершова.

Современное состояние

Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпуса существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского и других языков.

Национальный корпус русского языка, создаваемый при РАН, содержит на сегодняшний день более 140 млн словоупотреблений.

Наряду с представительными корпусами, которые охватывают большой набор жанров и функциональных стилей, в лингвистических исследованиях часто используются и оппортунистические коллекции текстов, например, газеты (часто Wall Street Journal и New York Times), новостные ленты (Рейтер), коллекции художественной литературы (Библиотека Мошкова или Проект Гутенберг).

Проблемы

Проблема представительности

Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексикограмматические феномены, типичные для всего объема текстов в соответствующем языке (или подъязыке). Для представительности важен как размер, так и структура корпуса. Представительный размер зависит от задачи, поскольку он определяется тем, как много примеров может быть найдено для исследуемых феноменов. В связи с тем, что со статистической точки зрения язык содержит большое число относительно редких слов (Закон Ципфа), для исследования первых пяти тысяч наиболее частотных слов (например, убыток, извиняться) требуется корпус размером около 10-20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов (незатейливый, сердцебиение, роиться) уже требуется корпус свыше ста миллионов словоупотреблений.

Проблема разметки

К первичной разметке текстов относятся этапы, обязательные для каждого корпуса:

  • токенизация (разбиение на орфографические слова)
  • лемматизация (приведение словоформ к словарной форме)
  • морфологический анализ

Проблема представления результатов

В больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. Для решения этой проблемы разрабатываются системы, позволяющие группировать результаты поиска и автоматически разбивать их на подмножества (кластеризация результатов поиска), либо выдающие наиболее устойчивые словосочетания (коллокации) со статистической оценкой их значимости.

Веб как корпус

Использование поисковых машин

В качестве корпуса может использоваться множество текстов, доступных в интернете (то есть миллиарды словоупотреблений для основных мировых языков). Для лингвистов самым распространенным способом работы с Интернетом остаётся составление запросов к поисковой машине и интерпретация результатов либо по числу найденных страниц, либо по первым возвращенным ссылкам. В английском языке такая методология получила название англ. Googleology [1], для русского более подходящим названием может стать Яндексология. Необходимо отметить, что такой подход годится для решения ограниченного класса задач, так как средства разметки текстов, используемые в вебе, не описывают ряд лингвистических особенностей текста (указание ударений, грамматических классов, границ словосочетаний и т. д.). Кроме того дело осложняется малой распространённостью семантической вёрстки.

На практике ограниченность такого подхода приводит к тому, что проверить, например, сочетаемость двух слов проще всего через запрос вида «слово1 слово2». По полученным результатам можно судить, насколько распространено такое сочетание и в каких текстах оно чаще встречается. См. также статистика запросов.

Использование веб-страниц

Второй способ заключается в автоматическом извлечении большого количества страниц из Интернета и их дальнейшем использовании в качестве обычного корпуса, что дает возможность провести его разметку и использовать лингвистические параметры в запросах. Этот способ позволяет быстро создать представительный корпус для любого языка в достаточной степени представленного в Интернете, но его жанровое и тематическое разнообразие будет отражать интересы пользователей Интернета.[2]

Всё большую популярность в научной среде получает использование Википедии — как корпуса текстов.[3]


См. также


Примечания

  1. Kilgarriff A. Googleology is bad science. Computational Linguistics,, 33(1), 2007.
  2. Baroni M. and Bernardini S. (editors). WaCky! Working papers on the Web as Corpus. Gedit, Bologna, 2006.
  3. См. работы: Wikipedia in academic studies

Ссылки


Wikimedia Foundation. 2010.

Игры ⚽ Нужен реферат?

Полезное


Смотреть что такое "Лингвистический корпус" в других словарях:

  • Корпус — (от лат. corpus  тело, туловище, единое целое): В Викисловаре есть статья «corpus» …   Википедия

  • Московский государственный лингвистический университет — Эта статья или раздел нуждается в переработке. Пожалуйста, улучшите статью в соответствии с правилами написания статей …   Википедия

  • Московский государственный лингвистический институт — Запрос «МГЛУ» перенаправляется сюда. Cм. также другие значения. Московский Государственный Лингвистический Университет (МГЛУ) Девиз Lingua facit pacem Год основан …   Википедия

  • Московский лингвистический университет — Запрос «МГЛУ» перенаправляется сюда. Cм. также другие значения. Московский Государственный Лингвистический Университет (МГЛУ) Девиз Lingua facit pacem Год основан …   Википедия

  • Московский лингвистический университет — образован в 1990 на базе Института иностранных языков им. Мориса Тореза (ведёт историю с 1930, до 1987 МГПИИЯ). Готовит переводчиков и преподавателей иностранных языков. В 1998 около 4 тыс. студентов. * * * МОСКОВСКИЙ ЛИНГВИСТИЧЕСКИЙ УНИВЕРСИТЕТ… …   Энциклопедический словарь

  • Московский государственный лингвистический университет — (МГЛУ) (улица Остоженка, 38), основан в 1930 как Институт новых языков (МИНЯ) на базе Высших курсов иностранных языков при Библиотеке иностранной литературы (их предшественник  частное учебное заведение, основанное З.Л. Степановой ещё до 1917) и… …   Москва (энциклопедия)

  • Московский государственный лингвистический университет (МГЛУ) — (улица , 38), основан в 1930 как Институт новых языков (МИНЯ) на базе Высших курсов иностранных языков при Библиотеке иностранной литературы (их предшественник — частное учебное заведение, основанное З.Л. Степановой ещё до 1917) и курсов при …   Москва (энциклопедия)

  • Крымскотатарский язык — Самоназвание: Qırımtatar tili, Qırım tili, Къырымтатар тили, Къырым тили Страны …   Википедия

  • Крымский язык — Крымскотатарский язык Самоназвание: Qırımtatar tili, Qırım tili Страны: Украина, Узбекистан, Турция, Румыния, Болгария Регионы: Крым Официальный статус: Крым …   Википедия

  • Крымско-татарский язык — Крымскотатарский язык Самоназвание: Qırımtatar tili, Qırım tili Страны: Украина, Узбекистан, Турция, Румыния, Болгария Регионы: Крым Официальный статус: Крым …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»