- hOCR
-
hOCR — открытый стандарт, который определяет формат для представления OCR-вывода. Стандарт имеет целью приобщить к распознанного текста информацию о макете, уровень достоверности распознавания, стиль и другие данные. Для достижения цели вступления этой информации распознанного текста используется стандартный формат HTML.
Существует утилита командной строки hocr2pdf [1] для преобразования hocr-данных в файлы PDF.
См. также
- Программное обеспечение, которое использует этот формат:
Ссылки
- Общедоступная спецификация для формата hOCR (англ.)
- hocr-tools на „Google Code“
Это заготовка статьи о компьютерах. Вы можете помочь проекту, исправив и дополнив её.
Это примечание по возможности следует заменить более точным.Категории:- Оптическое распознавание символов
- Микроформаты
Wikimedia Foundation. 2010.