UTF16

UTF16

UTF-16 (англ. Unicode Transformation Format) в информатике — один из способов кодирования символов из Unicode в виде последовательности 16-битных слов. Символы с кодами меньше 0x10000 (216) представляются как есть, а символы с кодами 0x10000–0x10FFFE — в виде последовательности двух 16-битных слов, первое из которых лежит в диапазоне 0xD800–0xDBFF, а второе — 0xDC00–0xDFFF. Легко видеть, что имеется как раз 210 * 210 = 220 таких комбинаций.

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

  DC00 DFFE DFFF
D800 010000 0103FE 0103FF
D801 010400 0107FE 0107FF
DBFF 10FC00 10FFFE  

Следует отметить, что по стандарту никакие символы не могут иметь коды собственно из диапазона 0xD800–0xDFFF (отмечены рыжим и голубым цветами на диаграмме), так что расшифровка кодировки всегда однозначна. Впрочем, в подавляющем большинстве случаев текст в UTF-16 является просто последовательностью символов из UCS-2 (BMP), т.к. символы Unicode после кода 0x10000 используются крайне редко.

UTF-16LE и UTF-16ВE

Т.к. в современных компьютерах размер байта равен 8 битам, то один «байт» кодировки UTF-16 приходится представлять последовательностью двух 8-битных байтов. Который из двух идёт впереди, старший или младший, зависит от порядка байтов. Систему, совместимую с процессорами UTF-16LE (little endian), а с процессорами m68k и UTF-16ВE (big endian).

UTF-16 в ОС Windows

Основная статья: Юникод в Microsoft Windows

В API Win32, распространённом в современных версиях операционной системы Microsoft Windows, имеется два способа представления текста: в форме традиционных 8-битных кодовых страниц, и в виде UTF-16.

В файловых системах FAT с поддержкой длинных имён, имена файлов записываются в UTF-16LE.

Ссылки

Кодировки символов
Основы → алфавиттекстфайлданные ) • набор символовконверсия
Исторические кодировки → Докомп.: семафорная (Макарова)МорзеБодоМТК-2 Комп.: 6 битУПП • EBCDIC ( ДКОИ-8 ) • КОИ-7ISO 646
совре-
менное
8-битное
представ-
ление
символы управляющие • печатные ) не-ASCIIпсевдографика )
8бит. код.стр. Разные →   Кириллица: КОИ-8ГОСТ 19768-87 • ISO 8859 → 1(лат.) 2 3 4 5(кир.) 6 7 8 9 10 11 12 13 14 15(€) 16
Windows → 1251(кир.) 1252 WGL4
IBM&DOS → 850 • 866 «альт.»МИК )
Много-
байтные
Традиционные → GB2312 ) • HTML
Unicode → UTF-16 • список символов ( кириллица )
Связанные
темы →
интерфейс пользователяраскладки клавиатурлокальперевод строкишрифткрокозябрытранслит Утилиты: recode



Wikimedia Foundation. 2010.

Игры ⚽ Нужен реферат?

Полезное


Смотреть что такое "UTF16" в других словарях:

  • UTF16 — Unicode Kodierungen UTF 7 UTF 8 CESU 8 UTF 16 UTF 32 UTF EBCDIC SCSU Punycode GB 18030 Techniken BOM …   Deutsch Wikipedia

  • Limbo — Семантика: Конкурентное программирование Появился в: 1995 Автор(ы): Шон Дорвард, Фил Винтерботтом, Роб Пайк Типизация данных: строгая Испытал влияние: C …   Википедия

  • MySQL — Developer(s) MySQL AB (A subsidiary of Oracle) Initial release May 23, 1995 (1995 05 23 …   Wikipedia

  • UTF-16/UCS-2 — In computing, UTF 16 (16 bit Unicode Transformation Format) is a variable length character encoding for Unicode, capable of encoding the entire Unicode repertoire.The encoding form maps each character to a sequence of 16 bit words. Characters are …   Wikipedia

  • Network Kanji Filter — nkf, which stands for Network Kanji Filter, is a Unix computer program that converts Japanese encoding. It supports JIS, Shift JIS and EUC JP, as well as Unicode. USAGE: nkf(nkf32,wnkf,nkf2) [flags] [in file] .. [out file for O flag] Flags: b,u… …   Wikipedia

  • Comparison of file comparison tools — Contents 1 General 2 Compare Features 3 API / Editor Features 4 Other features 5 Aspects …   Wikipedia

  • Microsoft SQL Server — Entwickler Microsoft Aktuelle Version SQL Server 2008 R2 (10.50.2500.0 Service Pa …   Deutsch Wikipedia

  • Wt (Web Toolkit) — Wt (ausgesprochen „Witty“) ist ein auf C++ basierendes Application Server Toolkit, das es erlaubt, in C++ komplette Ajax Anwendungen (Fast CGI oder Standalone) zu entwickeln. Die API ist durch GUI APIs inspiriert; insbesondere weist Wt… …   Deutsch Wikipedia

  • Comparison of Object Pascal and C — Programming language comparisons General comparison Basic syntax Basic instructions Arrays Associative arrays String operations …   Wikipedia

  • OCILIB — Developer(s) Vincent Rogier Stable release 3.9.1 / July 8, 2011; 3 months ago (2011 07 08) …   Wikipedia


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»