- Представленные в Юникоде Символы
-
В Юникоде зарезервировано 1 114 112 (= 220 + 216) позиций символов, из которых сейчас используется свыше 100 000. Первые 256 знакомест совпадают с кодовой таблицей ISO 8859-1 («Латиница-1»).
Кодовое пространство разделено на 17 «плоскостей» по 65 536 (= 216) символов:
- Плоскость 0 (0000—FFFF): Базовая многоязыковая плоскость (Basic Multilingual Plane, BMP)
- Плоскость 1 (10000—1FFFF): Дополнительная многоязыковая плоскость (Supplementary Multilingual Plane, SMP)
- Плоскость 2 (20000—2FFFF): Дополнительная иероглифическая плоскость (Supplementary Ideographic Plane, SIP)
- Плоскость 3 (30000—3FFFF): Третичная иероглифическая плоскость (Tertiary Ideographic Plane, TIP)
- Плоскости 4—13 (40000—DFFFF) не используются
- Плоскость 14 (E0000—EFFFF): Дополнительная плоскость особого назначения (Supplementary Special-purpose Plane, SSP)
- Плоскость 15 (F0000—FFFFF) используется как дополнительная область-A для частного использования (Supplementary Private Use Area-A, SPUA-A)
- Плоскость 16 (100000—10FFFF) используется как дополнительная область-B для частного использования (Supplementary Private Use Area-B, SPUA-B)
Содержание
Базовая многоязыковая плоскость
Базовая плоскость UNICODE
Чёрный — расширенный латинский алфавит;
Голубой — лингвистические символы международного фонетического алфавита IPA;
Синий — другие европейские алфавиты;
Оранжевый — письменности Ближнего Востока;
Светло-оранжевый — письменности Африки;
Зелёный — письменности Южной Азии;
Фиолетовый — письменности Юго-восточной Азии;
Красный — письменности Восточной Азии;
Розовый — унифицированные китайско-японско-корейские символы;
Жёлтый — письменности аборигенов Северной Америки;
Пурпурный — символы;
Тёмно-серый — диакритики;
Светло-серый — суррогатные пары UTF-16 и области для частного использования;
Циан — другие знаки;
Белый — не используется.Плоскость 0 (Основная многоязыковая плоскость, англ. Basic Multilingual Plane, BMP) содержит символы практически для всех современных письменностей и большое число специальных символов. Большая часть таблицы занята китайско-японско иероглифами и своеобразными корейскими буквами.
В Unicode 5.1 в этой плоскости представлены следующие наборы символов:
- Управляющие символы C0 (0000—001F)
- Основная латиница (0020—007F)
- Управляющие символы C1 (0080—009F)
- Дополнительные символы Latin-1 (00A0—00FF)
- Расширенная латиница-A (0100—017F)
- Расширенная латиница-B (0180—024F)
- Расширенный набор символов международного фонетического алфавита (0250—02AF)
- Некомбинируемые протяжённые символы-модификаторы (02B0—02FF)
- Комбинируемые диакритические знаки (0300—036F)
- Греческий и коптский алфавиты (0370—03FF)
- Кириллица (0400—04FF), см. также Кириллица в Юникоде
- Дополнительные символы кириллицы (0500—052F)
- Армянский алфавит (0530—058F)
- Письменности с направлением справа налево:
- Иврит (0590—05FF)
- Арабское письмо (0600—06FF)
- Сирийский алфавит (0700—074F)
- Дополнительные символы арабского письма (0750—077F)
- Тана (мальдивское письмо) (0780—07BF)
- Нко (07C0—07FF)
- Индийские письменности:
- Деванагари (0900—097F)
- Бенгальская (0980—09FF)
- Гурмукхи (0A00—0A7F)
- Гуджарати (0A80—0AFF)
- Ория (0B00—0B7F)
- Тамильская (0B80—0BFF)
- Телугу (0C00—0C7F)
- Каннада (0C80—0CFF)
- Малаялам (0D00—0D7F)
- Сингальская (0D80—0DFF)
- Тайская письменность (0E00—0E7F)
- Лаосская письменность (0E80—0EFF)
- Тибетская письменность (0F00—0FFF)
- Мьянманская письменность (1000—109F)
- Грузинский алфавит (10A0—10FF)
- Хангыль (корейская письменность) (1100—11FF)
- Эфиопская слоговая письменность (1200—137F)
- Дополнительные символы эфиопской письменности (1380—139F)
- Письменность чероки (13A0—13FF)
- Канадское слоговое письмо (1400—167F)
- Огам (1680—169F)
- Руническая письменность (16A0—16FF)
- Филиппинские письменности:
- Тагальская (байбайин) (1700—171F)
- Хануноо (1720—173F)
- Бухид (1740—175F)
- Тагбанва (1760—177F)
- Кхмерская письменность (1780—17FF)
- Старомонгольская письменность (1800—18AF)
- Письменность лимбу (1900—194F)
- Письменность тай лэ (1950—197F)
- Новый алфавит тай лы (1980—19DF)
- Кхмерские символы (19E0—19FF)
- Бугийская письменность (лонтара) (1A00—1A1F)
- Балийская письменность (1B00—1B7F)
- Сунданская письменность (1B80-1BBF)
- Письменность лепча (ронг) (1C00—1C4F)
- Письменность Ол Чики (1C50—1C7F)
- Фонетические расширения (1D00—1D7F)
- Дополнительные фонетические расширения (1D80—1DBF)
- Дополнительные комбинируемые диакритические знаки (1DC0—1DFF)
- Дополнительная расширенная латиница (1E00—1EFF)
- Расширенный набор символов греческого алфавита (1F00—1FFF)
- Наборы символов:
- Знаки пунктуации (2000—206F)
- Надстрочные и подстрочные знаки (2070—209F)
- Символы валют (20A0—20CF)
- Комбинируемые диакритические знаки для символов (20D0—20FF)
- Буквоподобные символы (2100—214F)
- Числовые формы (2150—218F)
- Стрелки (2190—21FF)
- Математические операторы (2200—22FF)
- Разнообразные технические символы (2300—23FF)
- Значки управляющих кодов (2400—243F)
- Символы оптического распознавания (2440—245F)
- Вложенные буквы и цифры (2460—24FF)
- Символы для рисования рамок (2500—257F)
- Символы заполнения (2580—259F)
- Геометрические фигуры (25A0—25FF)
- Разнообразные символы (2600—26FF)
- Дингбаты (2700—27BF)
- Разнообразные математические символы-A (27C0—27EF)
- Дополнительные стрелки-A (27F0—27FF)
- Азбука Брайля (2800—28FF)
- Дополнительные стрелки-B (2900—297F)
- Разнообразные математические символы-B (2980—29FF)
- Дополнительные математические операторы (2A00—2AFF)
- Разнообразные символы и стрелки (2B00—2BFF)
- Глаголица (2C00—2C5F)
- Расширенная латиница-C (2C60—2C7F)
- Коптский алфавит (2C80—2CFF)
- Дополнительные символы грузинского алфавита (2D00—2D2F)
- Тифинаг (2D30—2D7F)
- Расширенный набор символов эфиопского письма (2D80—2DDF)
- Расширенная кириллица-A (2DE0—2DFF)
- Дополнительные знаки пунктуации (2E00—2E7F)
- Дополнительные иероглифические ключи ККЯ (2E80—2EFF)
- Иероглифические ключи словаря Канси (2F00—2FDF)
- Символы описания иероглифов (2FF0—2FFF)
- Символы и пунктуация ККЯ (3000—303F)
- Хирагана (3040—309F)
- Катакана (30A0—30FF)
- Чжуинь (бопомофо) (3100—312F)
- Чамо, комбинируемое с хангылем (3130—318F)
- Знаки, используемые в камбуне (3190—319F)
- Расширенный набор символов бопомофо (31A0—31BF)
- Черты ККЯ (31C0—31EF)
- Фонетические расширения катаканы (31F0—31FF)
- Вложенные буквы и месяцы ККЯ (3200—32FF)
- Знаки совместимости ККЯ (3300—33FF)
- Унифицированные иероглифы ККЯ (расширение А) (3400—4DBF)
- Гексаграммы И-Цзин (4DC0—4DFF)
- Унифицированные иероглифы ККЯ (4E00—9FFF)
- Письмо и:
- Слоговая письменность ваи (A500—A63F)
- Расширенная кириллица-B (A640-A69F)
- Символы изменения тона (A700—A71F)
- Расширенная латиница-D (A720—A7FF)
- Силоти Нагри (A800—A82F)
- Квадратное письмо Пагба-ламы (A840—A87F)
- Саураштра (A880—A8DF)
- Кайях Ли (A900-A92F)
- Реджанг (A930-A95F)
- Тямское письмо (AA00—AA5F)
- Слоги хангыля (AC00—D7AF)
- Верхняя часть (D800—DB7F)
- Верхняя часть для частного использования (DB80—DBFF)
- Нижняя часть (DC00—DFFF)
- Область для частного использования (E000—F8FF)
- Совместимые иероглифы ККЯ (F900—FAFF)
- Алфавитные формы представления (FB00—FB4F)
- Формы представления арабских букв-A (FB50—FDCF, FDF0-FDFF)
- Селекторы вариантов начертания (FE00—FE0F)
- Вертикальные формы (FE10—FE1F)
- Комбинируемые половинки символов (FE20—FE2F)
- Формы совместимости ККЯ (FE30—FE4F)
- Варианты малого размера (FE50—FE6F)
- Формы представления арабских букв-B (FE70—FEFF)
- Полуширинные и полноширинные формы (FF00—FFEF)
- Специальные символы (FFF0—FFFF)
Наборы символов, предложенные для кодирования и находящиеся на стадии рассмотрения:- Самаритянское письмо (0800-083F)
- Мандейский алфавит (0840-085F)
- Расширенный набор символов арабского письма-А (08AA-08FF)
- Расширенный набор символов канадского слогового письма (18B0-18FF)
- Старый алфавит тай лы (Тай Тхам) (1A20—1AAF)
- Пахау Хмонг (1AC0-1AFF)
- Батакское письмо (1BC0—1BFF)
- Ведические символы (1CD0-1CFF)
- Алфавит лису (A4D0-A4FF)
- Письменность бамум (A6A0-A6FF)
- Индийские цифры (A830-A83F)
- Расширенный набор символов деванагари (A8E0-A8FF)
- Хангыль (расширение A) (A960-A97F)
- Яванская письменность (A980-A9DF)
- Мьянманская письменность (расширение A) (AA60-AA7F)
- Письменность Тай Вьет (AA80-AADF)
- Расширенный набор символов письменности мейтей (AAE0-AAFF)
- Набор символов эфиопского письма (расширение A) (АВ00—АВ2F)
- Варанг-кшити (AB30—AB6F)
- Письменность Бериа для языка загхава (AB90—ABBF)
- Мейтей/Манипури (ABC0—ABFF)
Дополнительная многоязыковая плоскость
Плоскость 1 (дополнительная многоязыковая плоскость, англ. Supplementary Multilingual Plane, SMP) отведена, в первую очередь, для исторических письменностей, но включает также символы условных обозначений, такие как музыкальные и математические символы.
Дополнительная многоязыковая плоскость разделена на следующие поддиапазоны:- U+10000—U+100FF Линейное письмо Б
- U+10100—U+1018F Древние системы счисления
- U+10190—U+107FF Алфавиты, слоговые письменности и наборы символов с направлением письма слева направо
- U+10800—U+10FFF Алфавиты и слоговые письменности с направлением письма справа налево
- U+11000—U+11FFF Брахмические письменности
- U+12000—U+12FFF Клинопись и другие древние письменности
- U+13000—U+15BFF Иероглифы древних египтян и майя
- U+15C00—U+15FFF Ацтекские пиктограммы
- U+16000—U+167FF Вновь созданные письменности
- U+16800—U+16FFF Африканские и другие письменности
- U+17000—U+1B5FF Большие азиатские письменности и наборы символов
- U+1B600—U+1BFFF Не используется
- U+1C000—U+1CDFF Иероглифы микмак
- U+1CE00—U+1CFFF Протоэламская письменность
- U+1D000—U+1DFFF Системы условных обозначений
- U+1E000—U+1EFFF Не используется
- U+1F000—U+1F0FF Игровые символы
- U+1F100—U+1F2FF Наборы буквенно-цифровых и иероглифических символов
- U+1F300—U+1FFFF Не используется
В Unicode 5.1 в этой плоскости представлены следующие наборы символов:- Линейное письмо Б:
- Слоги линейного письма Б (10000-1007F)
- Идеограммы линейного письма Б (10080-100FF)
- Древние системы счисления:
- Эгейские цифры (10100-1013F)
- Древнегреческие цифры (10140-1018F)
- Алфавиты, слоговые письменности и наборы символов с направлением письма слева направо:
- Древние символы (10190-101CF)
- Символы фестского диска (101D0-101FF)
- Ликийский алфавит (10280-1029F)
- Алфавит карийского языка (102A0-102DF)
- Этрусский алфавит (10300-1032F)
- Готский алфавит (10330-1034F)
- Угаритский алфавит (10380-1039F)
- Древнеперсидский клинописный алфавит (103A0-103DF)
- Дезерет (10400-1044F)
- Алфавит Бернарда Шоу (10450-1047F)
- Сомалийский алфавит (османья) (10480-104AF)
- Алфавиты и слоговые письменности с направлением письма справа налево:
- Кипрский алфавит (10800-1083F)
- Финикийский алфавит (10900-1091F)
- Лидийский алфавит (10920-1093F)
- Кхароштхи (10A00-10A5F)
- Клинопись и другие древние письменности:
- Клинопись (12000-123FF)
- Клинописные цифры (12400-1247F)
- Системы условных обозначений:
- Византийские музыкальные символы (1D000-1D0FF)
- Музыкальные символы (1D100-1D1FF)
- Древнегреческие музыкальные символы (1D200-1D24F)
- Символы Тай Сюань Цзин (1D300-1D35F)
- Восточноазиатские счётные палочки (1D360-1D37F)
- Математические буквенно-цифровые символы (1D400-1D7FF)
- Игровые символы:
Наборы символов, предложенные для кодирования и находящиеся на стадии рассмотрения:- Алфавиты, слоговые письменности и наборы символов с направлением письма слева направо:
- Древнепермская письменность (10350-1037F)
- Скорописный алфавит Бернарда Шоу (103E0-103FF)
- Агванская письменность (10500-1053F)
- Эльбасанский алфавит (10540-1057F)
- Алфавит Бютакукье (10580-1059F)
- Иберская письменность (105A0-105BF)
- Линейное письмо А (10600-1077F)
- Кипро-минойская письменность (10780-107BF)
- Алфавиты и слоговые письменности с направлением письма справа налево:
- Арамейский алфавит (10840-1085F)
- Пальмирский алфавит (10860-1087F)
- Набатейский алфавит (10880-1089F)
- Нумидийский алфавит (108A0-108BF)
- Хатранский арамейский алфавит (108C0-108DF)
- Письменность северноаравийских языков (108E0-108FF)
- Мероитская письменность (10980-109DF)
- Элимейский алфавит (109E0-109FF)
- Южноаравийский алфавит (10A60-10A7F)
- Письменность балти (10A80-10A9F)
- Манихейская письменность (10AC0-10AFF)
- Авестийский алфавит (10B00-10B3F)
- Пехлевийское письмо для парфянского языка (10B40-10B5F)
- Эпиграфическое пехлевийское письмо (10B60-10B7F)
- Псалтирное пехлевийское письмо (10B80-10B9F)
- Книжное пехлевийское письмо (10BA0-10BDF)
- Древнетюркское руническое письмо (10C00-10C4F)
- Венгерское руническое письмо (10C90-10CFF)
- Староуйгурское письмо (10D00-10D5F)
- Библское письмо (10D90-10DFF)
- Езидское письмо (10E00-10E2F)
- Цифры системы руми (10E60-10E7F)
- Персидские числовые символы сияк (10E80-10EFF)
- Арабские математические буквенные символы (10F00-10FFF)
- Брахмические письменности:
- Брахми (11000-1104F)
- Кайтхи (11080-110CF)
- Соранг Сомпенг (110D0—110FF)
- Чакма (11100-1115F)
- Шарада (11180-111DF)
- Соёмбо (11200-1123F)
- Ахомская письменность (11240-1127F)
- Письменность ходжики (11280-112CF)
- Грантха (11300-1137F)
- Сиддхаматрика (11380-113DF)
- Письменность Прачалит Непали (11400-1145F)
- Письменность майтхили (11480-114DF)
- Ранджана (11500-1155F)
- Письменность Чола (11580-115DF)
- Письменность Сатавахана (11600-1165F)
- Такри (11680-116DF)
- Письменность тулу (11700-1174F)
- Моди (11780-117DF)
- Письменность для языка пью (11800-1183F)
- Леке (11880-118BF)
- Письменность Чалукья (11900-1195F)
- Туркестани (11980-119DF)
- Ланда (11A00-11A4F)
- Клинопись и другие древние письменности:
- Лувийские иероглифы (12480-126FF)
- Расширенная архаичная клинопись (12700-12A7F)
- Ронго-ронго (12A80-12DCF)
- Письменность долины Инда (12E00-12F8F)
- Иероглифы древних египтян и майя:
- Египетское письмо (13000-1342F)
- Египетское письмо (расширение) (13500-146FF)
- Египетское письмо (расширение-A) (14700-153FF)
- Иероглифы майя (15400-158FF)
- Ацтекские пиктограммы (15C00-15FFF)
- Вновь созданные письменности и наборы символов:
- Тенгвар (16000-1607F)
- Эльфийские руны (Cirth) (16080-160FF)
- Блиссимволы (16200-165FF)
- Расширенный набор блиссимволов (16600-166FF)
- Африканские и другие письменности:
- Старая письменность бамум (16800-16A3F)
- Письменность менде (16A40-16AFF)
- Письменность басса (16B00-16B2F)
- Волеайская письменность (16B80-16BEF)
- Письменность чинукского жаргона (16C00-16C2F)
- Стенография (16D00-16DFF)
- Письмо Полларда для языка мяо (16F00-16FFF)
- Большие азиатские письменности:
- Тангутское письмо (17000-1871F)
- Ключи тангутского письма (18800-18BFF)
- Чжурчжэньское письмо (18C00-190FF)
- Киданьское малое письмо (19100-1927F)
- Киданьское большое письмо (19280-1A4FF)
- Наси Геба (1A800-1AAAF)
- Наси Донгба (1AAC0-1AFFF)
- Историческая кана (1B000-1B0FF)
- Нюйшу (1B100-1B28F)
- Иероглифическая письменность микмак (1C000-1CA7F)
- Протоэламская письменность (1CE00-1CFFF)
- Системы условных обозначений:
- Жестовое письмо (1D800-1DBFF)
- Наборы буквенно-цифровых и иероглифических символов:
- Набор дополнительных вложенных буквенно-цифровых символов (1F100-1F1FF)
- Набор дополнительных вложенных иероглифических символов (1F200-1F2FF)
- Японские смайлики (эмодзи) (1F300-1F5FF)
- Символы, совместимые с эмодзи (1F600-1F64F)
- Алхимические символы (1F700-1F77F)
Дополнительная иероглифическая плоскость
Плоскость 2 (Дополнительная иероглифическая плоскость, англ. Supplementary Ideographic Plane, SIP) отведена для редко используемых иероглифов ККЯ.
В Unicode 5.1 в этой плоскости представлены следующие наборы иероглифов:
- Унифицированные иероглифы ККЯ (расширение B) (20000—2A6DF)
- Дополнение совместимых иероглифов ККЯ (2F800—2FA1F)
Наборы иероглифов, предложенные для кодирования и находящиеся на стадии рассмотрения:- Унифицированные иероглифы ККЯ (расширение C) (2A700—2B77F)
- Унифицированные иероглифы ККЯ (расширение D) (2B800—2F7FF)
Третичная иероглифическая плоскость
Плоскость 3 (Третичная иероглифическая плоскость, англ. Tertiary Ideographic Plane, TIP) зарезервирована для архаичных китайских иероглифов.
Третичная иероглифическая плоскость предварительно разделена на следующие поддиапазоны:
- U+30000—U+317FF Гадательные надписи на костях
- U+31800—U+31FFF Не используется
- U+32000—U+32FFF Надписи на бронзовых сосудах
- U+33000—U+33FFF Не используется
- U+34000—U+368FF Письмо стиля «малая печать»
- U+36900—U+3FFFF Не используется
В вышеперечисленные диапазоны предполагается включить следующие наборы иероглифов:- в диапазон U+30000—U+317FF - древнейшие китайские иероглифы эпохи Шан (цзягувэнь, 甲骨文), встречающиеся в гадательных надписях на панцирях черепах и костях животных.
- в диапазон U+32000—U+32FFF - иероглифы эпох Шан и Чжоу (цзиньвэнь, 金文), встречающиеся в ритуальных надписях на бронзовых сосудах и музыкальных инструментах.
- в диапазон U+34000—U+368FF - иероглифы в стиле «малая печать» (сяочжуань, 小篆).
В будущем также предполагается включить наборы иероглифов Периода Сражающихся царств.
Дополнительная плоскость особого назначения
Плоскость 14 (Дополнительная плоскость особого назначения, англ. Supplementary Special-purpose Plane, SSP) отведена для символов, используемых по особому назначению.
В Unicode 5.1 в этой плоскости представлены следующие наборы символов:
- Символы тегов (E0000—E007F)
- Дополнительные селекторы вариантов начертания (E0100—E01EF)
Области для частного использования
Некоторые диапазоны Юникода выделены для частного использования и экспериментов. Они включают:
- Частную область в Базовой многоязыковой плоскости U+E000—U+F8FF
- Дополнительные плоскости 15 (U+F0000—U+FFFFF) и 16 (U+100000—U+10FFFF)
Ссылки
- The Unicode Standard 4.1(англ.)
- The Unicode Standard 5.0(англ.)
- Изображения всех Unicode символов в PDF-файлах
Кодировки символов Основы → алфавит • текст ( файл • данные ) • набор символов • конверсия Исторические кодировки → Докомп.: семафорная (Макарова) • Морзе • Бодо • МТК-2 Комп.: 6 бит • УПП • EBCDIC ( ДКОИ-8 ) • КОИ-7 • ISO 646 совре-
менное
8-битное
представ-
лениесимволы → управляющие • печатные ) не-ASCII ( псевдографика ) 8бит. код.стр. Разные → Кириллица: КОИ-8 • ГОСТ 19768-87 • ISO 8859 → 1(лат.) 2 3 4 5(кир.) 6 7 8 9 10 11 12 13 14 15(€) 16 Windows → 1251(кир.) 1252 WGL4 IBM&DOS → 850 • 866 «альт.» ( МИК ) Много-
байтныеТрадиционные → GB2312 ) • HTML Unicode → UTF-8 • список символов ( кириллица ) Связанные
темы →интерфейс пользователя • раскладки клавиатур • локаль • перевод строки • шрифт • крокозябры • транслит Утилиты: recode
Wikimedia Foundation. 2010.