- Текст как изображение
-
Текст в том виде, как его читает человек, представляет собой изображение. В компьютере, однако, текст чаще всего представляется в виде последовательности кодированных единиц, и лишь при выводе на экран или на бумагу он преобразуется в изображение.
Тем не менее вполне возможно хранить текст и в компьютере непосредственно в виде изображения (растрового или векторного). Такой подход имеет как преимущества, так и недостатки.
Содержание
Преимущества
- Текст всегда выглядит одинаково, независимо от используемого программного обеспечения.
- Можно использовать любое, сколь угодно сложное форматирование.
- Можно использовать любые символы, в том числе и не внесённые ни в какие стандарты.
- В случае сканированного текста сохраняется точный вид исходного документа.
Недостатки
- Объём файла с изображениями значительно больше, чем объём файла с кодированным текстом.
- Растровые изображения плохо масштабируются: изображение, оптимизированное для показа на экране, на печати «расплывается» (выглядит нерезким), а изображение, предназначенное для качественной печати, должно иметь значительно более высокое разрешение и, соответственно, больший размер файла (этого недостатка нет у векторных изображений).
- Текст в виде изображения трудно редактировать (трудно менять как содержание, так и оформление текста).
- Текст в виде изображения с трудом поддаётся повторному использованию (например, его сложно процитировать, переформатировать, невозможно направить в синтезатор речи или преобразовать в шрифт Брайля).
Сканированный текст
При сканировании книг и других документов получается изображение. Его можно либо подвергнуть распознаванию (OCR), либо оставить как есть. Распознавание даёт текст с многочисленными ошибками, которые приходится тщательно выявлять и исправлять вручную. Кроме того, существующие программы OCR не способны обрабатывать тексты, содержащие символы сразу нескольких систем письма (например, русский + греческий), а также тексты со сложным форматированием (например, математические формулы) — всё это приходится вводить вручную.
Поэтому во многих случаях рациональнее оставить сканированный текст в виде изображений. Существуют технологии, позволяющие значительно уменьшить размер таких файлов (например, DjVu; см. также Оцифровка книг).
Сгенерированный текст
Возможен и обратный случай, когда исходный текст был создан в обычном кодированном виде, а затем преобразован в изображение.
Нередко можно встретить веб-страницы, где экзотические символы вставлены в общий поток текста в виде маленьких изображений. По мере улучшения поддержки Юникода потребность в этом уменьшается (в 1990-е годы греческие буквы приходилось вставлять в виде картинок, но сейчас в этом уже нет необходимости).
В 1990-е годы большинство арабских веб-сайтов показывали текст в виде изображения, поскольку браузеры того времени не обрабатывали арабский текст.
Формулы в современных веб-страницах также чаще всего показываются в виде сгенерированных изображений (хотя изначально они набираются в каком-нибудь редакторе формул). Внедрение поддержки MathML может сделать применение картинок в этом случае ненужным.
На некоторых веб-сайтах показ текста в виде изображения используют как защиту от нелегального копирования (поскольку при низком разрешении OCR не даёт надёжных результатов).
В современных типографиях принято получать исходные материалы для печати рекламных блоков либо в виде растровых изображений высокого разрешения, либо в виде векторных изображений («текст в кривых»[1][2]).
Комбинированные форматы
Файл может содержать как изображение, так и кодированный текст. Например, формат DjVu может содержать сканированные страницы, на которые наложен распознанный текст.
Некоторые форматы (например, PDF) могут содержать текст, воспроизводимый с помощью встраиваемых в файл шрифтов — это позволяет решить проблему единообразия воспроизведения текста (в том числе позволяет использовать нестандартные шрифты).
См. также
- Рендеринг
- Речь-в-текст
Примечания
Кодировки символов Основы → алфавит • текст ( файл • данные ) • набор символов • конверсия Исторические кодировки → Докомп.: семафорная (Макарова) • Морзе • Бодо • МТК-2 Комп.: 6 бит • УПП • RADIX-50 • EBCDIC ( ДКОИ-8 ) • КОИ-7 • ISO 646 совре-
менное
8-битное
представ-
лениесимволы → ASCII ( управляющие • печатные ) не-ASCII ( псевдографика ) 8бит. код.стр. Разные → Кириллица: КОИ-8 • ГОСТ 19768-87 • MacCyrillic ISO 8859 → 1(лат.) 2 3 4 5(кир.) 6 7 8 9 10 11 12 13 14 15(€) 16 Windows → 1250 1251(кир.) 1252 1253 1254 1255 1256 1257 1258 | WGL4 IBM&DOS → 437 • 850 • 852 • 855 • 866 «альт.» • ( МИК ) • ( НИИ ЭВМ ) Много-
байтныеТрадиционные → DBCS ( GB2312 ) • HTML Unicode → UTF-16 • UTF-8 • список символов ( кириллица ) Связанные
темы →интерфейс пользователя • раскладка клавиатуры • локаль • перевод строки • шрифт • кракозябры • транслит • нестандартные шрифты • текст как изображение Утилиты: iconv • recode Категория:- Компьютерная типографика
Wikimedia Foundation. 2010.