Татоэба

Татоэба
Tatoeba Project
Tatoeba.png
URL:

http://tatoeba.org

Коммерческий:

Нет

Тип сайта:

Открытый мультиязычный онлайн-словарь фраз

Регистрация:

Требуется только для редактирования

Язык(и):

17 языков, включая русский; предложения на 114 языках

Владелец:

Trang Ho

Автор:

Trang Ho

Начало работы:

2006

Текущий статус:

Актуальный[1]

Проект Татоэба (Tatoeba project, от японского слова татоэба (яп. 例えば?, «например») — сайт для свободного обмена примерами фраз на всех доступных языках мира. В отличие от онлайн-словарей, в которых хранятся переводы слов, проект ориентирован на цельные семантические конструкции — фразы, предложения, пословицы и т. д.; их накапливаемые аналоги на различных языках сопоставляются друг с другом вручную или автоматически. Особенностью проекта является его открытость и общедоступность: Татоэба заявлена как некоммерческий проект[2], а любой желающий вне зависимости от специализации и языковой принадлежности может вносить изменения в базы данных проекта (добавлять или редактировать существующие фразы). Благодаря этим особенностям проект Татоэба постепенно получает признание как уникальное средство для самостоятельного обучения[3]. На декабрь 2010 года проект поддерживал 81 язык и предоставлял 11 вариантов языкового интерфейса. В ноябре 2011 это показатели составили 94 и 17 соответственно.

Создателем и лидером проекта является Чанг Хо (Trang Ho), француженка вьетнамского происхождения[4]. Первые примеры сайта датированы 30 сентября 2007 [1]. Предложение № 1 принадлежит пользователю sysko: это китайская фраза «Посмотрим-ка!» [2].

Содержание

Принцип работы

Принцип работы проекта заключается сборе и увязывании переводов той или иной фразы данного языка. Это могут быть, например, разговорные фразы, вопросы, пословицы и поговорки, любые другие связные предложения. Система анализирует все поступившие данные. Если конструкция А переводится на другой язык как конструкция В, а та, в свою очередь — как конструкция С, то все они будут считаться переводами друг друга, обозначающими одно и то же. После этого при запросе одной из них отображены будут все три.

Просматривать накопленный материал могут все желающие, добавлять и редактировать — только зарегистрированные участники. Участники со стажем могут получить статус «доверенного» («trusted user»). Он дает доступ к тегам, в также позволяет связывать адекватные переводы между собой или «отрезать» неадекватные. Ограниченный круг участников проекта имеет статус «блюстителей» (corpus maintainers), которые имеют администраторские полномочия.

В отличие от учебников, интернет-словарей и форумов, проект Татоэба не ориентирован на конкретную языковую аудиторию или профессиональный круг пользователей. Зарегистрироваться и дополнять примеры фраз на родном или изучаемом языке может любой желающий с базовыми навыками грамотности[5]. Для работы пользователям предлагается весь спектр имеющихся языков или возможность выборочного чтения с указанием языка оригинала и/или перевода. При этом для собственных переводов на Татоэба рекомендуется ориентироваться только на оригинал, так как сопутствующие переводы могут быть неточны[6]. Обсуждение нюансов перевода возможно тут же в комментариях к каждому из предложений.

Накапливаемый таким образом материал может бесплатно распространяться для всех видов использования, включая коммерческое, при отсылке на источник по лицензии CC-BY[7]. На сайте имеются ссылки для скачивания всего корпуса материалов[8] или его частей[9].

Каждой фразе при внесении на платформу присваивается порядковый номер, однако некоторые вклады (машинный перевод, дубликаты) впоследствии удаляются. Процент удаления может быть вычислен при сравнении последнего порядкового номера (открыть верхнюю фразу в списке последних вкладов на лицевой) со счётчиком фраз на лицевой странице. Например, 12 дек. 2011 они составили, соответственно, 1295340 и 1241274.

Поддерживаемые языки

Начальным ресурсом для сайта стал англо-японский корпус языковых примеров проф. Ясухиро Танаки. В декабре 2010 года Татоэба содержала более 648 000 предложений; сегодня (апрель 2012) эта цифра почти достигла 1.5 млн. Наибольшее количество фраз (по убывающей, июль 2012):

Кроме того, есть более тысячи предложений на следующих языках: литературный арабский, исландский, хинди, уйгурский, вьетнамский, норвежский (букмол), белорусский, шанхайский и кантонский диалекты китайского языка.

Наряду с естественными языками в проекте фигурируют искусственные: эсперанто, клингон, интерлингва, CycL, токипона.

Первоначально для введения нового языка было достаточно лишь обратиться к администраторам и внести на нём пять примеров. Впоследствии необходимым требованием стало наличие сертификации вносимого языка согласно стандарту ISO 639-3. При заявке на добавление нового языкового раздела можно предложить флаг-символ, который его обозначит на сайте; этот графический знак не обязан представлять конкретное государство из современных либо существовавших ранее[10].

Деятельность

Открытость и доступность, в сочетании с удобством сайта, привела к устойчивому росту его популярности. (График активности сайта[11] фиксирует количество новых языковых примеров начиная с 1 января 2008). В настоящее время (декабрь 2010) количество ежедневных посетителей составляет ок. 1 800[12], которые добавляют до полутора-двух тысяч примеров в день.

Татоэба выступает за открытость и свободу Интернета в проекте Mozilla Drumbeat в числе нескольких сотен других проектов-участников.

Татоэба содействует многим электронным словарям и переводчикам — например, электронному словарю японского языка WWWJDIC[13]. Татоэба сотрудничает с проектом Shtooka  (нем.) — бесплатной коллекцией аудиозаписей слов, фраз, пословиц и т. п. на различных языках[14].

См. также

Примечания

Ссылки



Wikimedia Foundation. 2010.

Игры ⚽ Нужна курсовая?

Полезное


Смотреть что такое "Татоэба" в других словарях:

  • Корпусная лингвистика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов. Термин введён в употребление в 60 х годах XX века в связи с развитием практики создания корпусов, которому начиная с 80 х… …   Википедия

  • Викисловарь — Wiktionary URL: www.wiktionary.org Коммерческий: Нет …   Википедия

  • ИнЖест — Пластический театр «ИнЖест» …   Википедия

  • Театр ИнЖест — Пластический театр «ИнЖест» Вячеслав Иванович Иноземцев (режиссер ИнЖеста) в спектакле «…После». Прежние названия Жест (до 2002 года) Место нахождения Беларусь, Мин …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»