Параллельный корпус

Параллельный текст (битекст) — текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» — это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста. Большие собрания параллельных текстов называются «параллельным корпусом» (англ. parallel corpora). Выравнивание параллельного корпуса на уровне предложений является необходимой предпосылкой для различных аспектов лингвистических исследований. В процессе перевода предложения могут разделяться, сливаться, удаляться, вставляться или менять последовательность. В связи с этим выравнивание часто становится сложной задачей.

Содержание

1 Битекст
2 История
3 Битексты и память переводов
4 Параллельные корпусы в Интернете
5 Программы для выравнивания параллельных текстов
6 См. также
7 Источники и ссылки
- 7.1 Документация

Битекст

В сфере исследований в области перевода «битекст» — это совмещенный документ, состоящий из версий соответствующего текста на исходном и целевом языках. Битексты создаются с помощью специальных компьютерных программ, которые называются «инструментами для выравнивания» (alignment tool) или «инструментами для битекста» (bitext tool), которые позволяют автоматически выравнивать оригинальную версию текста и его перевод. Подобные программы, как правило, приводят в соответствие два текста (оригинал и перевод) по каждому предложению. Собрание битекстов называется «битекстовой базой данных» или «двуязычным корпусом» и может использоваться в качестве справочника и для поиска нужных сочетаний.

История

Идея битекста принадлежит Брайану Хэррису (Brian Harris), который первым написал исследование по данной концепции в 1988 году, и была впоследствии развита группой ученых при Университете Монреаля (Université de Montréal), называвшейся RALI ((Recherche appliquée en linguistique informatique или Applied Research in Computational Linguistics — «Прикладные исследования в вычислительной лингвистике»). Группа состояла из программистов и лингвистов, изучавших естественную обработку текста. Известными промоутерами концепции битекста являются Пьер Изабель (Pierre Isabelle) и Клод Бедар (Claude Bédard).

Битексты и память переводов

Идея «битекста» имеет много общего с концепцией памяти переводов. Главное различие между ними в том, что память переводов представляет собой базу данных, в которой сегменты текста (соответствующие друг другу предложения) расположены таким способом, при котором они не связаны с оригинальным контекстом, то есть оригинальная последовательность предложений теряется. Битекст же сохраняет изначальную последовательность предложений. Стандартным форматом для обмена базами данных памяти переводов между разными программами автоматизированного перевода является формат ТМХ (XML словарь, опубликованный LISA (Ассоциация отрасли локализации -Localisation Industries Association). ТМХ позволяет сохранять оригинальный порядок предложений. Битексты создаются в качестве справочного инструмента для консультаций специалистов-переводчиков, а не автоматизированных программ. Поэтому небольшие ошибки выравнивания или неточности, которые могут привести к сбоям в памяти переводов, для них не имеют значения.

Параллельные корпусы в Интернете

Параллельный корпус The JRC-Acquis Multilingual Parallel Corpus законодательства Европейского союза: Acquis Communautaire, содержащий 231 языковую пару.^[1]
Проект Opus, ставящий целью сбор свободно распространяемых параллельных текстов
COMPARA — Параллельный корпус Portuguese/English
LILABAR — Англо-русский параллельный корпус
TERMSEARCH — Англо-франко-русский параллельный корпус международных конвенций, договоров и других документов
Англо-русский параллельный корпус в составе Национального корпуса русского языка
Nunavut Hansard — Параллельный корпус English/Inuktitut
WordsByExample http://www.wordsbyexample.com/ru Содержит более 150 классических англоязычных книг + поиск по параллельным текстам

Программы для выравнивания параллельных текстов

hunalign — полностью автоматическое средство, учитывающее статистику переводов отдельных слов, но требующее достаточного большого корпуса для надежной работы
Trados Winalign
Wordfast tools — реализованы в виде набора макросов MS Word, в отличие от программы Wordfast, работающей как память переводов, средства выравнивания (для пополнения ПП) доступны бесплатно.

См. также

Автоматизированный перевод

Источники и ссылки

↑ Ralf Steinberger Ralf, Bruno Pouliquen, Anna Widiger, Camelia Ignat, Tomaž Erjavec, Dan Tufiş, Dániel Varga, 2006, The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages, Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC’2006). Genoa, Italy, 24-26 May 2006

Документация

Parallel text processing bibliography by J. Veronis and M.-D. Mahimon(англ.)
Proceedings of the 2003 Workshop on Building and Using Parallel Texts(англ.)
Proceedings of the 2005 Workshop on Building and Using Parallel Texts(англ.)

Wikimedia Foundation. 2010.

Игры ⚽ Нужен реферат?

Полезное

Смотреть что такое "Параллельный корпус" в других словарях:

Параллельный текст (битекст) — текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста. Большие собрания параллельных текстов называются… … Википедия
Битекст — Параллельный текст (битекст) текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста. Большие собрания… … Википедия
Слово о полку Игореве — Титульный лист первого издания (1 … Википедия
Плач Ярославны — Титульный лист первого издания (1800) Титульный лист издания 1934) в палехском оформлении «Слово о полку Игореве» («Слово о походе Игоревом, Игоря, сына Святославова, внука Олегова», др. русск. Слово о плъку Игоревѣ, Игоря сына Святъславля, внука … Википедия
Революция 1917 года в России — См. также: Революция 1905 1907 годов в России Смена власти в России в 1917 1918 годах … Википедия
Фонарь проекционный — (волшебный) оптический прибор, служащий для отбрасывания (проектирования) на белую, хорошо отражающую или пропускающую свет плоскость (экран) увеличенного изображения какого либо небольшого предмета. В качестве такого предмета чаще всего служит… … Энциклопедический словарь Ф.А. Брокгауза и И.А. Ефрона
ZX Spectrum — Тип Домашний компьютер Выпущен … Википедия
Sinclair ZX-Spectrum — ZX Spectrum Тип Домашний компьютер Выпущен 23 апреля 1982 года Выпускался по декабрь 1990 года Процессор Z80, 3,5 МГц … Википедия
Sinclair ZX Spectrum — ZX Spectrum Тип Домашний компьютер Выпущен 23 апреля 1982 года Выпускался по декабрь 1990 года Процессор Z80, 3,5 МГц … Википедия
Spectrum+ — ZX Spectrum Тип Домашний компьютер Выпущен 23 апреля 1982 года Выпускался по декабрь 1990 года Процессор Z80, 3,5 МГц … Википедия

Словари и энциклопедии на Академике

Параллельный корпус

Содержание

Битекст

История

Битексты и память переводов

Параллельные корпусы в Интернете

Программы для выравнивания параллельных текстов

См. также

Источники и ссылки

Документация

Полезное

Смотреть что такое "Параллельный корпус" в других словарях:

Поделиться ссылкой на выделенное

Словари и энциклопедии на Академике

Википедия

Параллельный корпус

Содержание

Битекст

История

Битексты и память переводов

Параллельные корпусы в Интернете

Программы для выравнивания параллельных текстов

См. также

Источники и ссылки

Документация

Полезное

Смотреть что такое "Параллельный корпус" в других словарях:

Поделиться ссылкой на выделенное

Прямая ссылка: