Текст как изображение


Текст как изображение

Текст в том виде, как его читает человек, представляет собой изображение. В компьютере, однако, текст чаще всего представляется в виде последовательности кодированных единиц, и лишь при выводе на экран или на бумагу он преобразуется в изображение.

Тем не менее вполне возможно хранить текст и в компьютере непосредственно в виде изображения (растрового или векторного). Такой подход имеет как преимущества, так и недостатки.

Содержание

Преимущества

  • Текст всегда выглядит одинаково, независимо от используемого программного обеспечения.
  • Можно использовать любое, сколь угодно сложное форматирование.
  • Можно использовать любые символы, в том числе и не внесённые ни в какие стандарты.
  • В случае сканированного текста сохраняется точный вид исходного документа.

Недостатки

  • Объём файла с изображениями значительно больше, чем объём файла с кодированным текстом.
  • Растровые изображения плохо масштабируются: изображение, оптимизированное для показа на экране, на печати «расплывается» (выглядит нерезким), а изображение, предназначенное для качественной печати, должно иметь значительно более высокое разрешение и, соответственно, больший размер файла (этого недостатка нет у векторных изображений).
  • Текст в виде изображения трудно редактировать (трудно менять как содержание, так и оформление текста).
  • Текст в виде изображения с трудом поддаётся повторному использованию (например, его сложно процитировать, переформатировать, невозможно направить в синтезатор речи или преобразовать в шрифт Брайля).

Сканированный текст

При сканировании книг и других документов получается изображение. Его можно либо подвергнуть распознаванию (OCR), либо оставить как есть. Распознавание даёт текст с многочисленными ошибками, которые приходится тщательно выявлять и исправлять вручную. Кроме того, существующие программы OCR не способны обрабатывать тексты, содержащие символы сразу нескольких систем письма (например, русский + греческий), а также тексты со сложным форматированием (например, математические формулы) — всё это приходится вводить вручную.

Поэтому во многих случаях рациональнее оставить сканированный текст в виде изображений. Существуют технологии, позволяющие значительно уменьшить размер таких файлов (например, DjVu; см. также Оцифровка книг).

Сгенерированный текст

Возможен и обратный случай, когда исходный текст был создан в обычном кодированном виде, а затем преобразован в изображение.

Нередко можно встретить веб-страницы, где экзотические символы вставлены в общий поток текста в виде маленьких изображений. По мере улучшения поддержки Юникода потребность в этом уменьшается (в 1990-е годы греческие буквы приходилось вставлять в виде картинок, но сейчас в этом уже нет необходимости).

В 1990-е годы большинство арабских веб-сайтов показывали текст в виде изображения, поскольку браузеры того времени не обрабатывали арабский текст.

Формулы в современных веб-страницах также чаще всего показываются в виде сгенерированных изображений (хотя изначально они набираются в каком-нибудь редакторе формул). Внедрение поддержки MathML может сделать применение картинок в этом случае ненужным.

На некоторых веб-сайтах показ текста в виде изображения используют как защиту от нелегального копирования (поскольку при низком разрешении OCR не даёт надёжных результатов).

В современных типографиях принято получать исходные материалы для печати рекламных блоков либо в виде растровых изображений высокого разрешения, либо в виде векторных изображений («текст в кривых»[1][2]).

Комбинированные форматы

Файл может содержать как изображение, так и кодированный текст. Например, формат DjVu может содержать сканированные страницы, на которые наложен распознанный текст.

Некоторые форматы (например, PDF) могут содержать текст, воспроизводимый с помощью встраиваемых в файл шрифтов — это позволяет решить проблему единообразия воспроизведения текста (в том числе позволяет использовать нестандартные шрифты).

См. также

Примечания

Кодировки символов
Основы → алфавиттекстфайлданные ) • набор символов • конверсия
Исторические кодировки → Докомп.: семафорная (Макарова)МорзеБодоМТК-2 Комп.: 6 битУППRADIX-50EBCDICДКОИ-8 ) • КОИ-7ISO 646
совре-
менное
8-битное
представ-
ление
символы ASCIIуправляющиепечатные ) не-ASCIIпсевдографика )
8бит. код.стр. Разные →   Кириллица: КОИ-8ГОСТ 19768-87MacCyrillic
ISO 8859 → 1(лат.) 2 3 4 5(кир.) 6 7 8 9 10 11 12 13 14 15(€) 16
Windows → 1250 1251(кир.) 1252 1253 1254 1255 1256 1257 1258 | WGL4
IBM&DOS → 437850852855866 «альт.» • ( МИК ) • ( НИИ ЭВМ )
Много-
байтные
Традиционные → DBCSGB2312 ) • HTML
Unicode → UTF-16UTF-8список символовкириллица )
Связанные
темы →
интерфейс пользователяраскладка клавиатурылокальперевод строкишрифткракозябрытранслитнестандартные шрифтытекст как изображение Утилиты: iconvrecode

Wikimedia Foundation. 2010.

Смотреть что такое "Текст как изображение" в других словарях:

  • Как Маша поссорилась с подушкой — Тип мультфильма рисованный Режиссёр Лев Мильчин Автор сценария Галина Лебедева Художник постановщик …   Википедия

  • изображение — 3.2 изображение: Текст (рукопись или машинопись) или рисунок (черно белый, полутоновый или штриховой), размещенные на листе формата А4 по ГОСТ 2.301. Источник: ГОСТ Р 51826 2001: Системы и аппаратура факсимильной связи. Параметры …   Словарь-справочник терминов нормативно-технической документации

  • Векторное изображение — Пример, показывающий эффект векторной графики при увеличении: (a) исходное векторное изображение; (b) иллюстрация, увеличенная в 8 раз как векторное изображение; (c) иллюстрация, увеличенная в 8 раз как растровое изображение. Растровые… …   Википедия

  • Текстовый файл — Запрос «TXT» перенаправляется сюда; см. также другие значения. Пиктограммное описание текстового файла с CSV данными Текстовый файл  компьютер …   Википедия

  • Транслит — Стиль этой статьи неэнциклопедичен или нарушает нормы русского языка. Статью следует исправить согласно стилистическим правилам Википедии. Эта статья  о передаче текста. О литературно критическом альманах …   Википедия

  • Рендеринг — Фотореалистичное изображение, созданное POV Ray 3.6. Модели кувшина, стаканов и пепельницы созданы при помощи Rhinoceros 3D, модель игральной кости  в Cinema 4D. Рендеринг ( …   Википедия

  • UTF-8 — (от англ. Unicode Transformation Format, 8 bit  «формат преобразования Юникода, 8 битный»)  распространённая кодировка символов Юникода, совместимая с 8 битными форматами передачи текста. Нашла широкое применение в операционных… …   Википедия

  • ASCII — У этого термина существуют и другие значения, см. ASCII (значения). ASCII ASCII (англ. American Standard Code for Information …   Википедия

  • Управляющие символы — элементы данной кодировки, которым не приписано графическое представление, но которые используются для управления устройствами, организации передачи данных и других целей. Сейчас для этих целей применяются форматы файлов, языки управления… …   Википедия

  • Управляющие последовательности ANSI — У этого термина существуют и другие значения, см. ANSI (значения). Управляющие символы ANSI (англ. ANSI escape code)  символы, встраиваемые в текс …   Википедия

Книги

Другие книги по запросу «Текст как изображение» >>