OCRFeeder

OCRFeeder
OCRFeeder
OCRFeeder logo w lettering.svg
Ocrfeeder.jpeg
Тип

оптическое распознавание символов

Автор

Joaquim Rocha

Разработчик

компания Igalia, S.L.[1]

Написана на

Python

Интерфейс

GTK+, командная строка

Операционная система

Linux и др. UNIX-подобные

Первый выпуск

май 2009[2]

Последняя версия

0.7.9 (11 апреля 2012[3])

Состояние

активное

Лицензия

GNU GPL

Сайт

live.gnome.org

OCRFeeder — программа, предоставляющая графический интерфейс пользователя для систем оптического распознавания символов CuneiForm, Tesseract, GOCR (англ.) и Ocrad (англ.). OCRFeeder является свободно распространяемой программой для операционной системы Linux.

Содержание

Функции

  • Графические форматы ввода данных: PNG, JPEG, BMP, TIFF, GIF, Portable anymap (PNM, PGM, PBM, PPM) и другие. Импорт PDF-файлов.
  • Форматы вывода данных: текстовый файл, ODT, HTML, PDF.
  • Обработка изображений для улучшения качества распознавания — фильтры шумов, чёрного цвета и оттенков серого; и другие виды обработок, доступных для Unpaper[4].
  • Ручное выделение блоков на странице.
  • Проверка орфографии.
  • Получение изображений со сканера посредством программы SANE.
  • Распознавание нескольких изображений по порядку за один проход (пакетное распознавание).

Используемые компоненты

  • PIL — библиотека Python для работы с изображениями.
  • Unpaper — для обработки изображений.
  • ReportLab[5] — для импорта PDF-файлов.
  • PyGTK и Libgnome — для графического интерфейса.
  • PyeEnchant («привязка» Enchant (англ.) для Python) и PyGtkSpell («привязка» GtkSpell для Python) — для проверки орфографии.

Примечания

Литература

  • Журнал Linux Format № 11 (150) Ноябрь 2011 — Тимур Мубаракшин рассматривает приложения OCR для Linux: Сuneiform-Qt, GOCR, Tesseract, OCRFeeder, ABBYY FineReader и YAGF.

Ссылки


Wikimedia Foundation. 2010.

Игры ⚽ Поможем решить контрольную работу

Полезное


Смотреть что такое "OCRFeeder" в других словарях:

  • OCRFeeder — Developer(s) Joaquim Rocha (Igalia) …   Wikipedia

  • CuneiForm (software) — CuneiForm Original author(s) Cognitive Technologies Developer(s) Cognitive Technologies Stable release 1.1 / April 19, 2011; 6 months ago (2011 04 19) …   Wikipedia

  • Ocrad — Developer(s) Antonio Diaz Diaz Stable release 0.21 / January 11, 2011; 9 months ago (2 …   Wikipedia

  • Document Layout Analysis — is a part of Computer Vision indicating the process of identifying and categorizing the regions of interest in a document image, e.g. a scanned page. A reading system requires the segmentation of text zones from non textual ones and the… …   Wikipedia

  • CuneiForm — Тип оптическое распознавание символов Автор Cognitive Technologies Разработчики команда CuneiForm Linux Написана на C, C++ Интерфейс …   Википедия

  • Tesseract — Первый выпуск середина 1980 х Последняя версия 3.02 / 28 октября 2012[1] Написана на C++ Операционная система Linux, Mac OS X и др. UNIX подобные, Windows Тип …   Википедия

  • YAGF — YAGF …   Википедия

  • Optical character recognition — Optical character recognition, usually abbreviated to OCR, is the mechanical or electronic translation of scanned images of handwritten, typewritten or printed text into machine encoded text. It is widely used to convert books and documents into… …   Wikipedia

  • OmniPage — Nuance OmniPage Developer(s) Nuance Communications Stable release 18 (Windows platform) X (Macintosh platform) Operating system Mac OS 9 Mac OS X Windows 2000 Windows Vista Windows XP …   Wikipedia

  • SmartScore — Developer(s) Musitek Corporation Stable release 10.3.3 (as of 7.12.2010) Operating system Windows, Mac OS Type …   Wikipedia


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»