Кодировки символов в HTML

Толкование

Кодировки символов в HTML: HTML

HTML и HTML5

Динамический HTML

XHTML

XHTML Mobile Profile и CHTML

Canvas

Кодировки символов

Document Object Model

Семейство шрифтов

Редактор HTML

Элементы HTML

Мнемоники в HTML

Фреймы HTML

HTML5 audio и HTML5 video

Скрипты в HTML

Браузерный движок

Quirks mode

Таблицы стилей

Каскадные таблицы стилей

Unicode и HTML

W3C и WHATWG

Цвета HTML

Web Storage

WebGL

Сравнение

языков разметки документов

браузеров

браузерных движков для

HTML

HTML5

HTML5 Canvas

HTML5 Media

XHTML (1.1)

Язык гипертекстовой разметки HTML используется с 1991 года, но версия 4.0 (1997) была первой, где представление символов, отличных от ASCII (то есть, английского языка), достаточно стандартизировано.

Содержание

1 Определение кодировки средствами HTTP

2 Настройка заголовков, передаваемых сервером

3 Определение кодировки средствами XML

4 Мнемоники HTML и коды Unicode

Определение кодировки средствами HTTP

При отображении HTML-страницы браузерами последним нужно сообщить в какой кодировке сохранена страница. Для этого можно воспользоваться двумя методами:

При передаче документа HTML по HTTP (скажем, в WWW) набор символов документа задаётся в заголовке HTTP, например для текста в русском варианте кодировки КОИ-8:

Content-Type: text/html; charset=koi8-r

Информацию о кодировке можно вставить в сам документ HTML, используя тег meta в раздел <head> HTML-документа. Например, в случае кодировки UTF-8 тег meta будет выглядеть следующим образом:

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

В стандарте для языка HTML 5 мета тег информирующий браузер о кодировке страницы записывается отлично от правил принятых в более ранних стандартах HTML. Так пример приведенный выше в HTML 5 будет выглядеть следующим образом:

<meta charset="utf-8">

Такой способ неплохо работает для файлов, но при выдаче документа по HTTP его успешность будет зависеть от действий HTTP-сервера, пожелает ли он указать эту информацию в заголовке. Согласно HTTP/1.1, отсутствие указания charset в заголовке приравнивается к использованию набора символов ISO 8859-1.

То есть, приоритетным фактором для браузера по вопросу «в какой кодировке отображать документ» может являться переданный сервером заголовок. В этом случае браузер обязан игнорировать соответственные директивы в теге META.

Настройка заголовков, передаваемых сервером

1. Можно использовать файл .htaccess. В нём нужно указать директивы серверу касательно кодировок по умолчанию: AddDefaultCharset UTF-8 В приведенном примере кодировкой по умолчанию в заголовках сервера будет назначена UTF-8.

В случае кодировки windows-1251: AddDefaultCharset windows-1251

Данные директивы файла .htaccess наиболее часто применимы. Но в каждом отдельно взятом случае могут и не сработать. Все зависит от настроек сервера.

Есть менее популярные директивы, действие которых направлено на отключение заголовков сервера. При их отключении браузер будет выбирать кодировку в зависимости от указаний в теге МЕТА.

charsetdisable on

AddDefaultCharset Off

Зачастую, проблемы отображения кодировок связаны с тем, что устаревшее ПО для Web (например, сайт, CMS и т.д.) использует национальную кодировку в то время как сервер настроен для работы с UTF-8. В этом случае, принудительно указывается язык, кодировка необходимая ПО (например, cp1251) для web-сервера, и (как правило) интерпретатора PHP.

DefaultLanguage ru

AddDefaultCharset windows-1251

php_value default_charset "cp1251"

2. Директива php-кодом: В начале php-файла можно указать php-код, который передаст инструкции браузеру по выбору кодировки: <?php header('Content-type: text/html; charset=utf-8')?>

Определение кодировки средствами XML

В XHTML можно также указывать кодировку в преамбуле XML, например:

<?xml version="1.0" encoding="utf-8"?>

Мнемоники HTML и коды Unicode

Символы, имеющие специальные названия (см. Мнемоники в HTML), могут быть закодированы в виде &entity;, например:

«à» → «à»

«α» → «α»

«<» → «<»

«>» → «>»

« » → « » (пробел)

В то же время все символы могут быть также закодированы в числовом обозначении с использованием десятичного (&#DD;) или шестнадцатеричного (&#xHHHH;) кода Unicode.

«à» = «à» → «à»

«α» = «α» → «α»

Правильный браузер будет отображать символы, заданные вышеназванным путём, независимо от текущей кодировки документа и, в частности, даже в случае, когда такие символы ею не могут быть охвачены. Таким образом, возможен японский текст в HTML-документе, написанном в Windows-1251, и т.д.

Кодировки символов

Основы → алфавит • текст ( файл • данные ) • набор символов • конверсия

Исторические кодировки → Докомп.: семафорная (Макарова) • Морзе • Бодо • МТК-2 Комп.: 6 бит • УПП • RADIX-50 • EBCDIC ( ДКОИ-8 ) • КОИ-7 • ISO 646

совре-
менное
8-битное
представ-
ление символы → ASCII ( управляющие • печатные ) не-ASCII ( псевдографика )

8бит. код.стр. Разные → Кириллица: КОИ-8 • ГОСТ 19768-87 • MacCyrillic

ISO 8859 → 1(лат.) 2 3 4 5(кир.) 6 7 8 9 10 11 12 13 14 15(€) 16

Windows → 1250 1251(кир.) 1252 1253 1254 1255 1256 1257 1258 | WGL4

IBM&DOS → 437 • 850 • 852 • 855 • 866 «альт.» • ( МИК ) • ( НИИ ЭВМ )

Много-
байтные Традиционные → DBCS ( GB2312 ) • HTML

Unicode → UTF-16 • UTF-8 • список символов ( кириллица )

Связанные
темы → интерфейс пользователя • раскладка клавиатуры • локаль • перевод строки • шрифт • кракозябры • транслит • нестандартные шрифты • текст как изображение Утилиты: iconv • recode

Категории:
Компьютерные кодировки
HTML
Стандарты W3C

Кодировки символов
Основы →	алфавит • текст ( файл • данные ) • набор символов • конверсия
Исторические кодировки →	Докомп.: семафорная (Макарова) • Морзе • Бодо • МТК-2	Комп.: 6 бит • УПП • RADIX-50 • EBCDIC ( ДКОИ-8 ) • КОИ-7 • ISO 646
совре- менное 8-битное представ- ление	символы →	ASCII ( управляющие • печатные )	не-ASCII ( псевдографика )
8бит. код.стр.	Разные → Кириллица: КОИ-8 • ГОСТ 19768-87 • MacCyrillic
ISO 8859 →	1(лат.) 2 3 4 5(кир.) 6 7 8 9 10 11 12 13 14 15(€) 16
Windows →	1250 1251(кир.) 1252 1253 1254 1255 1256 1257 1258 \| WGL4
IBM&DOS →	437 • 850 • 852 • 855 • 866 «альт.» • ( МИК ) • ( НИИ ЭВМ )
Много- байтные	Традиционные →	DBCS ( GB2312 ) • HTML
Unicode →	UTF-16 • UTF-8 • список символов ( кириллица )
Связанные темы →	интерфейс пользователя • раскладка клавиатуры • локаль • перевод строки • шрифт • кракозябры • транслит • нестандартные шрифты • текст как изображение	Утилиты: iconv • recode

Игры ⚽ Нужно решить контрольную?

Полезное

Смотреть что такое "Кодировки символов в HTML" в других словарях:

HTML — Расширение .html, .htm MIME text/html Ра … Википедия
Кодировка символов — Набор символов (англ. character set) определённая таблица кодировки конечного множества знаков. Такая таблица сопоставляет каждому символу последовательность длиной в один или несколько байтов. Хотя термин «набор символов» (англ. character set,… … Википедия
Набор символов — (англ. character set) таблица, задающая кодировку конечного множества символов алфавита (обычно элементов текста: букв, цифр, знаков препинания). Такая таблица сопоставляет каждому символу последовательность длиной в один или несколько… … Википедия
Переносимый набор символов — (англ. Portable Character Set) набор из 103 символов, которые, согласно стандарту POSIX, должны присутствовать в любой используемой кодировке. Включает в себя все печатные символы US ASCII и часть управляющих. Является базовым алфавитом для… … Википедия
Мнемоники в HTML — HTML HTML и HTML5 Динамически … Википедия
Элементы HTML — Эта статья или раздел нуждается в переработке. Пожалуйста, улучшите статью в соответствии с правилами написания статей. Эта статья посвящена в основном элемен … Википедия
Редактор HTML — HTML HTML и HTML5 Динамический HTML … Википедия
Цвета HTML — Глубина цвета битовое изображение 8 битная шкала серого 8 битный цвет 15/16 bit: Highcolor 24 bit: Truecolor 30/36/48 bit: Deep Color См. также Цветовая модель RGB Цветовая модель CMYK Цветовая палитра Видимое излучение Цвета в Web (Цвета HTML) … Википедия
Фрейм (HTML) — У этого термина существуют и другие значения, см. Фрейм. HTML … Википедия
Canvas (HTML) — HTML HTML и HTML5 Динамический HTML … Википедия

Словари и энциклопедии на Академике

Кодировки символов в HTML

Содержание

Определение кодировки средствами HTTP

Настройка заголовков, передаваемых сервером

Определение кодировки средствами XML

Мнемоники HTML и коды Unicode

Полезное

Смотреть что такое "Кодировки символов в HTML" в других словарях:

Поделиться ссылкой на выделенное

Словари и энциклопедии на Академике

Википедия

Кодировки символов в HTML

Содержание

Определение кодировки средствами HTTP

Настройка заголовков, передаваемых сервером

Определение кодировки средствами XML

Мнемоники HTML и коды Unicode

Полезное

Смотреть что такое "Кодировки символов в HTML" в других словарях:

Поделиться ссылкой на выделенное

Прямая ссылка: