Распознавание речи

Распознавание речи

Распознавание речи — процесс преобразования речевого сигнала в цифровую информацию (напр., текстовые данные). Обратной задачей является синтез речи.

Содержание

История

Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры.[1] В 1964 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.

Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей, сокращение расходов на оплату труда и повышение производительности систем обслуживания — вот только некоторые преимущества, доказывающие целесообразность подобных решений.

Прогресс, однако, не стоит на месте и в последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

Виды систем

На сегодня существует два типа систем распознавания речи — работающие «на клиенте» (client-based) и по принципу «клиент-сервер» (client-server). При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice, Vlingo, пр.); ввиду большого количества пользователей сервера система распознавания получает большую базу для обучения. Первый вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) — в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки «на клиенте» в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая «на клиенте» кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.

Сейчас применяется также технология SIND (без привязки к голосу конкретного человека).

Применение

Основным преимуществом голосовых систем является дружественность к пользователю — он избавляется от необходимости продираться сквозь сложные и запутанные лабиринты голосовых меню. Теперь достаточно произнесения цели звонка, после чего голосовая система автоматически переместит звонящего в нужный пункт меню.

См. также

Примечания

  1. Davies , K.H., Biddulph, R. and Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. Am. 24 (6) pp. 637 — 642

Ссылки



Wikimedia Foundation. 2010.

Игры ⚽ Поможем сделать НИР

Полезное


Смотреть что такое "Распознавание речи" в других словарях:

  • Распознавание речи — процесс преобразования речи в текст. Системы распознавания речи характеризуются: объемом словаря понимаемых слов; допустимой беглостью речи; степенью зависимости от настойки на речь конкретного лица. По английски: Speech recognition См. также:… …   Финансовый словарь

  • распознавание речи — — [http://www.iks media.ru/glossary/index.html?glossid=2400324] Тематики электросвязь, основные понятия EN speech recognition …   Справочник технического переводчика

  • распознавание речи — kalbos atpažinimas statusas T sritis automatika atitikmenys: angl. speech perception; speech recognition; voice recognition vok. Spracherkennung, f rus. распознавание речи, n pranc. reconnaissance de parole, f; reconnaissance vocale, f …   Automatikos terminų žodynas

  • распознавание речи, зависящее от особенностей голоса — Процедура распознавания, основанная на учете особенностей голоса говорящего. Распознаваемый речевой сигнал обычно разделяется на короткие фрагменты, каждый из которых сравнивается с образцами речи, хранимыми в памяти. Выбирается тот, с которым… …   Справочник технического переводчика

  • распознавание речи, не зависящее от особенностей голоса — Метод преобразования речи в осмысленную текстовую информацию без настройки на тембр голоса конкретного абонента. [Л.М. Невдяев. Телекоммуникационные технологии. Англо русский толковый словарь справочник. Под редакцией Ю.М. Горностаева. Москва,… …   Справочник технического переводчика

  • автоматическое распознавание речи — Процесс или технология, которые воспринимают сигнал обычной речи в качестве входного сигнала и выдают в качестве выходного сигнала кодированную версию сказанного (слово, команда, выражение, предложение и т. д.) (МСЭ Т Y.2271, МСЭ Т P.10/ G.100).… …   Справочник технического переводчика

  • Распознавание — образов Оптическое распознавание символов Распознавание рукописного ввода Распознавание речи …   Википедия

  • Распознавание образов — Автоматическое распознавание лиц специальной программой. Теория распознавания образов раздел кибернетики, развивающий теоретические основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов,… …   Википедия

  • Распознавание образов (кибернетика) — Автоматическое распознавание лиц специальной программой. Теория распознавания образов раздел кибернетики, развивающий теоретические основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов,… …   Википедия

  • Распознавание объектов — Автоматическое распознавание лиц специальной программой. Теория распознавания образов раздел кибернетики, развивающий теоретические основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов,… …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»