Microsoft Speech API

Microsoft Speech API

Speech Application Programming Interface (SAPI) — интерфейс программирования приложений, основанный на технологии COM, предназначенный для распознавания и синтеза речи.

Распознавание речи

Распознавание речи — процесс преобразования произнесённых слов в печатный текст. Распознавание речи включает в себя:

  • захват и оцифровку звука, произнесённого в микрофон;
  • преобразование оцифрованного звука в фонемы;
  • конструирование из фонем слов;
  • анализ контекста, в котором было произнесено слово, и, при необходимости, замена слов на похожие по звучанию.

Распознающая программа (движок распознавания текста) итерационно сравнивает распознанный текст с правилами грамматики приложения и при совпадении текста с серией правил формирует выходной поток XML с использованием языка разметки семантики (англ. Semantic Markup Language, SML). Выходной поток содержит распознанный текст, значения вероятностей правильного распознания и может содержать семантические значения, присвоенные при помощи разметки интерпретации семантики. Распознанный текст обычно используется для ввода данных при помощи диктовки и для управления приложениями при помощи речевых команд.

Размер правил грамматики ограничивает возможности распознавания текста. Большинство программ, поддерживающих диктовку, для обеспечения наиболее точного распознавания настраиваются на речевые обороты конкретного пользователя. Режим управления речевыми командами более прост для реализации, поскольку содержание правил грамматики ограничено имеющимися командами.

Синтез речи

Синтез речи — процесс преобразования текста в произносимые слова. Синтез речи включает в себя:

  • разделение слов на фонемы;
  • нахождение текста, требующего преобразование в символы, такого как числа, количество валюты и пунктуация;
  • генерация цифрового звука для воспроизведения.

Движки преобразования текста в речь могут использовать один из двух способов синтеза голоса:

  • генерировать звуки, подобные издаваемым голосовыми связками и использовать различные фильтры для моделирования длины горла, форму ротовой полости, расположение губ и языка;
  • собирать его из многочисленных кусков речи, записанных диктором.

Ссылки

Introducing Computer Speech Technology  (англ.). MSDN Library. Microsoft (2012). Архивировано из первоисточника 30 сентября 2012. Проверено 24 июля 2012.



Wikimedia Foundation. 2010.

Игры ⚽ Нужен реферат?

Полезное


Смотреть что такое "Microsoft Speech API" в других словарях:

  • Microsoft Speech API — This article is about the Speech API. For other uses, see SAPI (disambiguation). The Speech Application Programming Interface or SAPI is an API developed by Microsoft to allow the use of speech recognition and speech synthesis within Windows… …   Wikipedia

  • Microsoft Speech Server — The Microsoft Speech Server is a product from Microsoft designed to allow the authoring and deployment of IVR applications incorporating Speech Recognition, Speech Synthesis and DTMF. The first version of the server was released in 2004 as… …   Wikipedia

  • Microsoft Telephony API — TAPI (англ. Telephony Application Programming Interface  интерфейс программирования приложений для телефонии)  позволяет подключать ПК, работающие под управлением Windows, к системам передачи голосовой информации  офисным… …   Википедия

  • Microsoft Agent — Microsoft provides examples on its website for the use of Agent. Microsoft Agent is a technology developed by Microsoft which employs animated characters, text to speech engines, and speech recognition software to enhance interaction with… …   Wikipedia

  • Speech Synthesis Markup Language — (SSML) (Язык Разметки Синтеза Речи) представляет собой основанный на XML язык разметки для приложений синтеза речи[1]. Он был рекомендован рабочей группой W3C[2]. SSML часто встраивается в сценарии VoiceXML для интерактивных систем телефонии[3].… …   Википедия

  • Microsoft Narrator — A component of Microsoft Windows Screenshot of Microsoft Narrator in …   Wikipedia

  • Speech Application Programming Interface — The Speech Application Programming Interface or SAPI is an API developed by Microsoft to allow the use of speech recognition and speech synthesis within Windows applications. To date a number of versions of the API have been released, which have… …   Wikipedia

  • Microsoft text-to-speech voices — The Microsoft text to speech voices are speech synthesizers provided for use with applications that use the Microsoft Speech API (SAPI). Microsoft Sam is the default text to speech male voice in Microsoft Windows 2000 and Windows XP. It is used… …   Wikipedia

  • Speech synthesis — Stephen Hawking is one of the most famous people using speech synthesis to communicate Speech synthesis is the artificial production of human speech. A computer system used for this purpose is called a speech synthesizer, and can be implemented… …   Wikipedia

  • Microsoft UI Automation — (UIA) is an Application Programming Interface (API) for User Interface (UI) accessibility that is designed to help Assistive Technology (AT) products interact with standard and custom UI elements of an application (or the operating system) as… …   Wikipedia


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»