Машинный Фонд русского языка

Машинный Фонд русского языка

Машинный фонд русского языка — проект создания большого представительного корпуса русского языка в СССР в 1980-е годы.



Содержание

История

Отдел Машинного фонда русского языка был создан в 1985 г. по инициативе академика А. П. Ершова, после состоявшейся в 1983 г. специальной всесоюзной конференции, материалы которой позднее были опубликованы в книге Машинный фонд русского языка: идеи и суждения, М.: Наука, 1989. Заведование отделом взял на себя тогдашний директор Института член-корреспондент АН СССР Ю. Н. Караулов. Под его руководством была разработана «Комплексная программа научных исследований и прикладных разработок по созданию Машинного фонда русского языка на 1996—2000 гг. и информатизации исследований в Институте русского языка АН СССР», в основу которой легли упомянутые материалы. Руководителями Отдела были последовательно член-корреспондент АН СССР Ю. Н. Караулов (1985—1991), доктор филологических наук В. М. Андрющенко (1992—1998), профессор, доктор филологических наук А. Я. Шайкевич (1999-2007).

Проект создания Машинного фонда русского языка был поддержан Президиумом АН и ГКНТ СССР. В соответствии с заданием 06.01 Создать Машинный фонд русского языка (1-я очередь) Научно-технической программы 0.80.18 на 1986—1990 гг., утвержденной Постановлением ГКНТ и АН СССР № 573/137 от 10.11.85 г, в 1986—1990 гг. в создании Машинного фонда русского языка принимали участие более 40 организаций-соисполнителей, среди них Московский, Санкт-Петербургский, Харьковский, Гродненский, Сыктывкарский и Саратовский университеты, выполнявшие прямые заказы Института русского языка.

Под комплексной информатизацией научных исследований и прикладных разработок в русистике понималось:

  • Последовательное оснащение отделов Института русского языка и организаций-соисполнителей современными вычислительными машинами с перспективой объединения их в вычислительную сеть;
  • Последовательное накопление на машинных носителях и в базах данных главнейших источников, необходимых как для научного изучения русского языка, так и для осуществления прикладных разработок;
  • Создание программных средств, необходимых как для подготовки научных трудов по филологии, так и для проведения прикладных разработок;
  • Развитие прикладных направлений (лексикография, терминоведение, автоматическая обработка данных на естественном языке) как составной части академической русистики, являющихся, с одной стороны, проводником результатов фундаментальных исследований в практику, а с другой — источником новых идей и данных для фундаментальной науки.

В 1985—1992 гг. отделом Машинного фонда русского языка (частично с участием соисполнителей) были осуществлены:

    • Разработка концепции и архитектуры Машинного фонда русского языка (опубликована в книге В. М. Андрющенко Концепция и архитектура Машинного фонда русского языка, М.: 1989).
    • Разработка концепции терминологического банка данных (опубликована в книге Лингвистическая концепция терминологического банка данных Машинного фонда русского языка (проект), под ред. А. С. Герда, М.: 1989).
    • Накопление значительного количества источников — накоплены на машинных носителях и частично в базах данных текстовые источники русской литературы XIX—XX вв., главнейшие словари русского языка, Краткая академическая грамматика, некоторые другие материалы справочного характера, созданы текстовые корпусы поэзии, художественной прозы, общественно-политических и технических текстов (содержание Архива источников было опубликовано в Бюллетене Машинного фонда русского языка, вып. 1; сейчас оно сильно устарело и нынешнее состояние архива лучше всего отражено на сайтах http://www.artint.ru/cfrl/ и http:/cfrl.ru/)
    • Разработка двух подсистем пакета UNILEX на персональных компьютерах (под MS DOS) — текстоориентированной компоненты UNILEX-T, словарной компоненты UNILEX-D. Каждая из компонент пакета может использоваться независимо от других. Компонента UNILEX-T (разработчик Ж. Г. Аношкина) предназначена для изготовления частотных словарей, словоуказателей (индексов слов к текстам) и конкордансов и работы с последними. Компонента UNILEX-D (разработчик Л. И. Колодяжная) предназначена для создания словарных баз данных и работы с последними. Обе эти системы больше не поддерживаются нами.
    • Разработка нескольких программно-источниковых пакетов, таких как Автоматический Синтаксический словарь русского языка, Автоматический словарь синонимов русского языка, Автоматический вариант Словаря русского языка С. И. Ожегова, Автоматический словарь глагольного управления в русском языке и др. под. (описания опубликованы в Бюллетене Машинного фонда русского языка, вып. 1-3). Программно-источниковые пакеты также больше не поддерживаются и не разрабатываются.
    • Разработка технологии редакционно-издательской подготовки научных трудов и продуктов Машинного фонда русского языка.
    • Обучение филологов информатике, автоматизации филологических исследований, работе с компонентами Машинного фонда русского языка.

После 1991 г., когда нарушилась старая система финансирования и координации научно-исследовательских работ и до 1996 г., деятельность Отдела Машинного фонда русского языка приобрела несколько хаотический характер. Этому способствовала также необходимость постоянного совершенствования технической базы в связи с резким ускорением научно-технического прогресса. Тем не менее можно выделить главные направления деятельности отдела того времени:

  1. Создание и совершенствование сервера Института русского языка и Машинного фонда русского языка в Интернет; (в 1995—1998 гг. этот сервер успешно функционировал, но позднее от этого решения пришлось отказаться в пользу размещения сайтов у независимых провайдеров);
  2. Полномасштабные испытания систем обработки лингвистических данных UNILEX путем участия в подготовке Орфографического словаря и Словаря поэзии ХХ в.;
  3. Ускоренное накопление новых источников на основе электронных изданий газет и сканирования произведений русского классической литературы. Полный архив источников Машинного фонда русского языка сейчас составляет более 100 млн словоупотреблений;
  4. Участие под руководством Ю. Н. Караулова в работе над словарем языка Ф. М. Достоевского.

После 1992 г., когда началась поддержка научных исследований различными фондами — фондом Сороса, Российским гуманитарным научным фондом и Российским фондом фундаментальных исследований, — развитие Машинного фонда русского языка приобрело более упорядоченное очертание. Выделились четыре направления:

  1. Включение МФ РЯ в Интернет: создание и развитие зеркал сайтов у независимых провайдеров (http://cfrl.ru/ и http://nature.syktsu.ru/cfrl/ )
  2. Накопление источников в целях широкого дистрибутивно-статистического исследования русской прозы последней трети XIX в. и газет конца ХХ в.,
  3. Накопление и анализ дистрибутивно-статистических данных, подготовка публикаций сводных данных (первый результат такой публикации — книга А. Я. Шайкевича, В. М. Андрющенко и Н. А. Ребецкой «Статистический словарь языка Ф. М. Достоевского»),
  4. Разработка технологии комбинированных изданий продуктов МФ РЯ (книга+CD+Интернет),
  5. Разработка лексической поисковой системы, способной заменить традиционные словарные картотеки.

Более отдаленные перспективы развития Машинного фонда русского языка мы связывали с полным осуществлением концепции, выработанной 1-ой Всесоюзной конференцией по созданию Машинного фонда русского языка 1983 г. В основе этой концепции лежали две главные задачи:

  1. Создание компонентов лингвистического обеспечения задач информатики и
  2. Информатизация научных исследований в русистике.

Уже тогда было понятно, что эти задачи взаимосвязаны: создание компонентов лингвистического обеспечения задач информатики силами профессиональных лингвистов возможно только при условии информатизации русистики. В то же время информатизация русистики требует использования всех достижений прикладной (вычислительной) лингвистики. Но использование достижений прикладной лингвистики в русистике может быть осуществлено только на достаточно богатой источниковой базе и должно быть нацелено на выдачу результатов в полиграфической форме. В соответствии с этим логика развития Машинного фонда русского языка должна быть выстроена так, чтобы создавались прежде всего базовые компоненты (источники на машинных носителях и в базах данных, лингвистические программно-источниковые пакеты, компьютерные технологии подготовки научных трудов). Эти направления никогда не исчерпают себя, так как источниковая база русистики бесконечна, а программные средства и технологии требуют постоянного совершенствования и обновления. Вместе с тем необходимо расширять поле разработок, сейчас — в направлении реализации методов дистрибутивно-статистического анализа и накопления лингвистических ресурсов в Интернет.

Сейчас, в 2005 г. мы должны признать, что данное научное направление (информатизация русистики) оказалось нежизнеспособным в современных организационно-финансовых условиях и постановка задачи создания Машинного фонда русского языка на ближайшую перспективу должна быть еще более сужена до двух-трех частных задач:

  1. Дальнейшее накопление источников на сайтах Фонда и совершенствование и его технической базы
  2. Дальнейшее развитие функций Автоматической словарной картотеки Фонда
  3. Конструирование глобальной лингвостатистической обработки всех текстовых источников Фонда в интерактивном режиме (образец такой обработки представлен в Статистическом словаре языка Достоевского).
В. М. Андрющенко

Литература

  • Ершов А. П. Машинный фонд русского языка: внешняя постановка, в кн. «Машинный фонд русского языка: идеи и суждения», Наука, Москва: 1986.
  • Сборник «Машинный фонд русского языка: идеи и суждения», Наука, Москва: 1986.
  • Андрющенко В. М. Концепция и архитектура Машинного фонда русского языка, Наука, Москва: 1989.
  • Андрющенко В. М. Разработка комбинированных изданий (книга+CD+Internet), в: Московский лингвистический журнал, т.7 № 1, 2003.
  • Лесников С.В. Машинный фонд русского языка в публикациях (1985-1998) http://nature.syktsu.ru/cfrl/cfrl-biblio1985-1998.htm
  • Шайкевич А. Я. Дистрибутивно-статистический анализ в семантике, в: Принципы и методы семантических исследований, Наука, Москва: 1976.
  • Шайкевич А. Я. Гипотезы о естественных классах и возможность количественной таксономии в лингвистике, в: Гипотеза в современной лингвистике, Наука, Москва: 1979.
  • Шайкевич А. Я., Андрющенко В. М., Ребецкая Н. А. Статистический словарь языка Достоевского, Изд-во «Языки славянской культуры», Москва: 2003.

См. также

Национальный корпус русского языка

Ссылки



Wikimedia Foundation. 2010.

Игры ⚽ Поможем сделать НИР

Полезное


Смотреть что такое "Машинный Фонд русского языка" в других словарях:

  • Машинный фонд русского языка — Машинный фонд русского языка  проект создания большого представительного корпуса русского языка. Опыт МФРЯ используется при разработке, начиная с 2004 года, Национального корпуса русского языка. Содержание 1 Программа по созданию МФРЯ 2 …   Википедия

  • Диалектологический атлас русского языка — …   Википедия

  • Герд, Александр Сергеевич — В Википедии есть статьи о других людях с такой фамилией, см. Герд. Александр Сергеевич Герд Дата рождения: 23 июня 1936(1936 06 23) (76 лет) Научная сфера …   Википедия

  • Нина Леонтьева — Нина Николаевна Леонтьева русский лингвист, специалист по структурной и прикладной лингвистике (ПЛ), преподаватель. Содержание 1 Биография 1.1 Основные труды 1.1.1 1958 1.1.2 1959 1.1.3 1961 …   Википедия

  • Нина Николаевна Леонтьева — русский лингвист, специалист по структурной и прикладной лингвистике (ПЛ), преподаватель. Содержание 1 Биография 1.1 Основные труды 1.1.1 1958 1.1.2 1959 1.1.3 1961 …   Википедия

  • Русистика — как филологический термин имеет двоякое содержание. В широком понимании русистика  это область филологии, занимающаяся русским языком, литературой, словесным фольклором; в узком смысле слова русистика  наука о русском языке в его истории и… …   Лингвистический энциклопедический словарь

  • Лесников — Лесников, Сергей Владимирович Лесников Сергей Владимирович Сергей Владимирович Лесников (род. 3 июня …   Википедия

  • Лесников, Сергей Владимирович — Лесников Сергей Владимирович Сергей Владимирович Лесников (род. 3 июня 1959, Микунь) российский лингвист, специалист в области информатики и информационных технологий, компьютерной лингвистики, математической лингвистики и русистики, кандидат… …   Википедия

  • Сергей Владимирович Лесников — Лесников Сергей Владимирович Сергей Владимирович Лесников (род. 3 июня 1959, Микунь) российский лингвист, специалист в области информатики и информационных технологий, компьютерной лингвистики, математической лингвистики и русистики, кандидат… …   Википедия

  • Сергей Лесников — Лесников Сергей Владимирович Сергей Владимирович Лесников (род. 3 июня 1959, Микунь) российский лингвист, специалист в области информатики и информационных технологий, компьютерной лингвистики, математической лингвистики и русистики, кандидат… …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»