Microsoft Speech API

Толкование

Microsoft Speech API: Speech Application Programming Interface (SAPI) — интерфейс программирования приложений, основанный на технологии COM, предназначенный для распознавания и синтеза речи.

Распознавание речи

Распознавание речи — процесс преобразования произнесённых слов в печатный текст. Распознавание речи включает в себя:

захват и оцифровку звука, произнесённого в микрофон;

преобразование оцифрованного звука в фонемы;

конструирование из фонем слов;

анализ контекста, в котором было произнесено слово, и, при необходимости, замена слов на похожие по звучанию.

Распознающая программа (движок распознавания текста) итерационно сравнивает распознанный текст с правилами грамматики приложения и при совпадении текста с серией правил формирует выходной поток XML с использованием языка разметки семантики (англ. Semantic Markup Language, SML). Выходной поток содержит распознанный текст, значения вероятностей правильного распознания и может содержать семантические значения, присвоенные при помощи разметки интерпретации семантики. Распознанный текст обычно используется для ввода данных при помощи диктовки и для управления приложениями при помощи речевых команд.

Размер правил грамматики ограничивает возможности распознавания текста. Большинство программ, поддерживающих диктовку, для обеспечения наиболее точного распознавания настраиваются на речевые обороты конкретного пользователя. Режим управления речевыми командами более прост для реализации, поскольку содержание правил грамматики ограничено имеющимися командами.

Синтез речи

Синтез речи — процесс преобразования текста в произносимые слова. Синтез речи включает в себя:

разделение слов на фонемы;

нахождение текста, требующего преобразование в символы, такого как числа, количество валюты и пунктуация;

генерация цифрового звука для воспроизведения.

Движки преобразования текста в речь могут использовать один из двух способов синтеза голоса:

генерировать звуки, подобные издаваемым голосовыми связками и использовать различные фильтры для моделирования длины горла, форму ротовой полости, расположение губ и языка;

собирать его из многочисленных кусков речи, записанных диктором.

Ссылки

Introducing Computer Speech Technology (англ.). MSDN Library. Microsoft (2012). Архивировано из первоисточника 30 сентября 2012. Проверено 24 июля 2012.

API и фреймворки Microsoft

Графика Desktop Window Manager · Direct2D · Direct3D (extensions) · GDI / GDI+ · WPF · Windows Color System · Windows Image Acquisition · Windows Imaging Component

Аудио DirectMusic · DirectSound · DirectX plugin · XACT · Speech API · XAudio2

Мультимедиа DirectX (Media Objects · Video Acceleration) · DirectInput · DirectShow · Image Mastering API · Managed DirectX · Media Foundation · XNA · Windows Media · Video for Windows

Web MSHTML · RSS Platform · JScript · VBScript · BHO · XDR · SideBar Gadgets

Доступ к данным Data Access Components · Extensible Storage Engine · ADO.NET · ADO.NET Entity Framework · Sync Framework · Jet Engine · MSXML · OLE DB · OPC

Сеть Winsock (LSP) · Winsock Kernel · Filtering Platform · Network Driver Interface Specification · Windows Rally · BITS · P2P API · MSMQ · MS MPI · DirectPlay

Коммуникации Messaging API · Telephony API · WCF

Администрирование и
управление
Win32 console · Windows Script Host · WMI (extensions) · PowerShell · Task Scheduler · Offline Files · Shadow Copy · Windows Installer · Error Reporting · Event Log · Common Log File System

Компонентная модель COM · COM+ · ActiveX · Distributed Component Object Model · .NET Framework

Библиотеки Base Class Library (BCL) · Microsoft Foundation Classes (MFC) · Active Template Library (ATL) · Windows Template Library (WTL)

Драйверы устройств Windows Driver Model · Windows Driver Foundation (KMDF · UMDF) · WDDM · NDIS · UAA · Broadcast Driver Architecture · VxD

Безопасность Crypto API (CAPICOM) · Windows CardSpace · Data Protection API · Security Support Provider Interface (SSPI)

.NET ASP.NET · ADO.NET · Base Class Library (BCL) · Remoting · Silverlight · TPL · WCF · WCS · WPF · WF

Программное обеспечение EFx Factory · Enterprise Library · Composite UI · CCF · CSF

IPC MSRPC · Dynamic Data Exchange (DDE) · Remoting · WCF

Доступность Active Accessibility · UI Automation

Текст и многоязная
поддержка
DirectWrite · Text Services Framework · Text Object Model · Input method editor · Language Interface Pack · Multilingual User Interface · Uniscribe

Категория:
Windows API

Игры ⚽ Нужен реферат?

Полезное

Смотреть что такое "Microsoft Speech API" в других словарях:

Microsoft Speech API — This article is about the Speech API. For other uses, see SAPI (disambiguation). The Speech Application Programming Interface or SAPI is an API developed by Microsoft to allow the use of speech recognition and speech synthesis within Windows… … Wikipedia
Microsoft Speech Server — The Microsoft Speech Server is a product from Microsoft designed to allow the authoring and deployment of IVR applications incorporating Speech Recognition, Speech Synthesis and DTMF. The first version of the server was released in 2004 as… … Wikipedia
Microsoft Telephony API — TAPI (англ. Telephony Application Programming Interface интерфейс программирования приложений для телефонии) позволяет подключать ПК, работающие под управлением Windows, к системам передачи голосовой информации офисным… … Википедия
Microsoft Agent — Microsoft provides examples on its website for the use of Agent. Microsoft Agent is a technology developed by Microsoft which employs animated characters, text to speech engines, and speech recognition software to enhance interaction with… … Wikipedia
Speech Synthesis Markup Language — (SSML) (Язык Разметки Синтеза Речи) представляет собой основанный на XML язык разметки для приложений синтеза речи[1]. Он был рекомендован рабочей группой W3C[2]. SSML часто встраивается в сценарии VoiceXML для интерактивных систем телефонии[3].… … Википедия
Microsoft Narrator — A component of Microsoft Windows Screenshot of Microsoft Narrator in … Wikipedia
Speech Application Programming Interface — The Speech Application Programming Interface or SAPI is an API developed by Microsoft to allow the use of speech recognition and speech synthesis within Windows applications. To date a number of versions of the API have been released, which have… … Wikipedia
Microsoft text-to-speech voices — The Microsoft text to speech voices are speech synthesizers provided for use with applications that use the Microsoft Speech API (SAPI). Microsoft Sam is the default text to speech male voice in Microsoft Windows 2000 and Windows XP. It is used… … Wikipedia
Speech synthesis — Stephen Hawking is one of the most famous people using speech synthesis to communicate Speech synthesis is the artificial production of human speech. A computer system used for this purpose is called a speech synthesizer, and can be implemented… … Wikipedia
Microsoft UI Automation — (UIA) is an Application Programming Interface (API) for User Interface (UI) accessibility that is designed to help Assistive Technology (AT) products interact with standard and custom UI elements of an application (or the operating system) as… … Wikipedia

Словари и энциклопедии на Академике

Microsoft Speech API

Распознавание речи

Синтез речи

Ссылки

Полезное

Смотреть что такое "Microsoft Speech API" в других словарях:

Поделиться ссылкой на выделенное

API и фреймворки Microsoft
Графика	Desktop Window Manager · Direct2D · Direct3D (extensions) · GDI / GDI+ · WPF · Windows Color System · Windows Image Acquisition · Windows Imaging Component
Аудио	DirectMusic · DirectSound · DirectX plugin · XACT · Speech API · XAudio2
Мультимедиа	DirectX (Media Objects · Video Acceleration) · DirectInput · DirectShow · Image Mastering API · Managed DirectX · Media Foundation · XNA · Windows Media · Video for Windows
Web	MSHTML · RSS Platform · JScript · VBScript · BHO · XDR · SideBar Gadgets
Доступ к данным	Data Access Components · Extensible Storage Engine · ADO.NET · ADO.NET Entity Framework · Sync Framework · Jet Engine · MSXML · OLE DB · OPC
Сеть	Winsock (LSP) · Winsock Kernel · Filtering Platform · Network Driver Interface Specification · Windows Rally · BITS · P2P API · MSMQ · MS MPI · DirectPlay
Коммуникации	Messaging API · Telephony API · WCF
Администрирование и управление	Win32 console · Windows Script Host · WMI (extensions) · PowerShell · Task Scheduler · Offline Files · Shadow Copy · Windows Installer · Error Reporting · Event Log · Common Log File System
Компонентная модель	COM · COM+ · ActiveX · Distributed Component Object Model · .NET Framework
Библиотеки	Base Class Library (BCL) · Microsoft Foundation Classes (MFC) · Active Template Library (ATL) · Windows Template Library (WTL)
Драйверы устройств	Windows Driver Model · Windows Driver Foundation (KMDF · UMDF) · WDDM · NDIS · UAA · Broadcast Driver Architecture · VxD
Безопасность	Crypto API (CAPICOM) · Windows CardSpace · Data Protection API · Security Support Provider Interface (SSPI)
.NET	ASP.NET · ADO.NET · Base Class Library (BCL) · Remoting · Silverlight · TPL · WCF · WCS · WPF · WF
Программное обеспечение	EFx Factory · Enterprise Library · Composite UI · CCF · CSF
IPC	MSRPC · Dynamic Data Exchange (DDE) · Remoting · WCF
Доступность	Active Accessibility · UI Automation
Текст и многоязная поддержка	DirectWrite · Text Services Framework · Text Object Model · Input method editor · Language Interface Pack · Multilingual User Interface · Uniscribe

Словари и энциклопедии на Академике

Википедия

Microsoft Speech API

Распознавание речи

Синтез речи

Ссылки

Полезное

Смотреть что такое "Microsoft Speech API" в других словарях:

Поделиться ссылкой на выделенное

Прямая ссылка: