- PVSM.RU - https://www.pvsm.ru -
Перед вами обновляемый список [1] самых замечательных «вкусностей» Юникода, а также пакетов и ресурсов
Юникод — это потрясающе! До его появления международная коммуникация была изнурительной: каждый определял свой отдельный расширенный набор символов в верхней половине ASCII (так называемые кодовые страницы). Это порождало конфликты. Просто подумайте, что немцам приходилось договариваться с корейцами, где чья кодовая страница на 127 символа. К счастью, появился Юникод и унифицировал коммуникации. Стандарт Юникод 8.0 охватывает более 120 000 символов из более 129 письменностей. И современные, и древние, и до сих пор не расшифрованные. Юникод поддерживает текст слева направо и справа налево, наложение символов и включает самые разные культурные, политические, религиозные символы и эмодзи. Юникод потрясающе человечен, а его возможности сильно недооцениваются.
Стандарт Юникод определяет коды для символов основных современных языков. Это европейские алфавитные письменности, ближневосточные письменности справа налево и многие письменности Азии.
Стандарт также содержит знаки пунктуации, диакритические знаки, математические символы, технические символы, стрелки, дингбаты, эмодзи и т. д. Он предоставляет коды для диакритических знаков, изменяющих знаки символов, такие как тильда (~). Они используются в сочетании с основными для представления акцентированных символов (например, ñ). В целом, Юникод версии 9.0 предоставляет коды для 128 172 символов из мировых алфавитов, наборов идеограмм и коллекций символов.
Большинство символов общего пользования помещаются в первые 64K кодовых точек, область кодового пространства, которая называется основной многоязычной плоскостью, или BMP для краткости. Есть ещё шестнадцать других дополнительных плоскостей, доступных для кодирования других символов, с более чем 850 000 неиспользуемых кодовых точек. Они могут пригодиться для добавления новых символов в будущие версии стандарта.
Стандарт Юникод также резервирует кодовые точки для частного использования. Вендоры или конечные пользователи могут назначать их в своих собственных системах для своих символов или использовать со специализированными шрифтами. На BMP находится 6400 кодовых точек для частного использования и ещё 131 068 дополнительных кодовых точек частного использования, если 6400 недостаточно для конкретных приложений.
Стандарты кодирования символов определяют не только идентичность каждого символа и его числовое значение или кодовую точку, но и то, как это значение представлено в битах.
Стандарт Юникод определяет три формы кодирования, которые позволяют передавать одни и те же данные: это байт, слово и двойное слово (то есть 8, 16 или 32 бит на единицу кода). Все три формы кодируют один и тот же общий набор символов и могут быть эффективно преобразованы друг в друга без потери данных. Консорциум Юникод полностью одобряет использование любой из этих форм кодирования в качестве согласованного способа реализации Стандарта Юникод.
UTF-8 популярен для HTML и подобных протоколов. UTF-8 — это способ преобразования всех символов Юникода в кодировку переменной байтовой длины. Его преимущество в том, что символы Юникода, соответствующие знакомому набору ASCII, имеют те же байтовые значения, что и ASCII, а символы Юникода, преобразованные в UTF-8, могут использоваться с большим количеством существующего программного обеспечения без серьёзной доработки ПО.
UTF-16 популярен во многих средах, где необходимо сбалансировать эффективный доступ к символам с экономичным хранением. Он достаточно компактен, и все часто используемые символы помещаются в один 16-битный кодовый блок, в то время как все остальные символы доступны через пары 16-битных кодовых блоков.
UTF-32 полезен там, где объём памяти не вызывает беспокойства, но требуется доступ к символам по единому коду фиксированной ширины. Здесь каждый символ Юникода кодируется в одном 32-разрядном кодовом блоке.
Все три формы кодирования требуют для каждого символа не более 4 байт (или 32 бит).
Набор символов Юникода разделён на 17 основных сегментов (плоскостей), которые далее делятся на блоки. В каждой плоскости есть место для 65 536 (216) кодовых точек, что создаёт в сумме 1 114 112 кодовых точек. Есть две «плоскости частного использования» (№ 16 и № 17), которые выделяются для использования на усмотрение компаний/пользователей. В них 131 072 кодовые точки.
№ | Название | Диапазон |
---|---|---|
1. | Основная многоязычная плоскость | (от U+0000 до U+FFFF) |
2. | Дополнительная многоязычная плоскость | (от U+10000 до U+1FFFF) |
3. | Дополнительная идеографическая плоскость | (от U+20000 до U+2FFFF) |
4. | Третичная идеографическая плоскость | (от U+30000 до U+3FFFF) |
5. | Плоскость 5 (не используется) | (от U+40000 до U+4FFFF) |
6. | Плоскость 6 (не используется) | (от U+50000 до U+5FFFF) |
7. | Плоскость 7 (не используется) | (от U+60000 до U+6FFFF) |
8. | Плоскость 8 (не используется) | (от U+70000 до U+7FFFF) |
9. | Плоскость 9 (не используется) | (от U+80000 до U+8FFFF) |
10. | Плоскость 10 (не используется) | (от U+90000 до U+9FFFF) |
11. | Плоскость 11 (не используется) | (от U+A0000 до U+AFFFF) |
12. | Плоскость 12 (не используется) | (от U+B0000 до U+BFFFF) |
13. | Плоскость 13 (не используется) | (от U+C0000 до U+CFFFF) |
14. | Плоскость 14 (не используется) | (от U+D0000 до U+DFFFF) |
15. | Специализированная дополнительная плоскость | (от U+E0000 до U+EFFFF) |
16. | Дополнительная область для частного использования — A | (от U+F0000 до U+FFFFF) |
17. | Дополнительная область для частного использования — B | (от U+100000 до U+10FFFF) |
Первая плоскость называется основной многоязычной плоскостью или BMP. Она содержит кодовые точки от U+0000 до U+FFFF, то есть наиболее часто используемые символы. Остальные шестнадцать плоскостей (U+010000 → U+10FFFF) называются дополнительными или астральными.
Символы вне основной плоскости, как тетраграмматон, означающий центр (U+1D306), можно закодировать в UTF-16 только двумя 16-битными кодовыми единицами: 0xD834 0xDF06. Это называется суррогатной парой. Обратите внимание, что суррогатная пара представляет только один символ.
Первая кодовая единица суррогатной пары всегда находится в диапазоне от 0xD800 до 0xDBFF и называется верхней частью пары.
Вторая кодовая единица суррогатной пары всегда находится в диапазоне от 0xDC00 до 0xDFFF и называется нижней частью пары.
Матиас Байненс [33]
Суррогатная пара: представление одного абстрактного символа, состоящего из последовательности двух 16-разрядных кодовых единиц, где первое значение пары является верхней суррогатной кодовой единицей, а второе — нижней суррогатной кодовой единицей. Суррогатные пары используются только в UTF-16.
Юникодовский символ «Куча дерьма» (U+1F4A9) в UTF-16 придётся кодировать как суррогатную пару, т. е. два суррогата. Чтобы преобразовать любую кодовую точку в суррогатную пару, используйте такой алгоритм (на JavaScript). Имейте в виду, что мы используем шестнадцатеричную нотацию.
var High_Surrogate = function(Code_Point){ return Math.floor((Code_Point - 0x10000) / 0x400) + 0xD800 };
var Low_Surrogate = function(Code_Point){ return (Code_Point - 0x10000) % 0x400 + 0xDC00 };
// Reverses The Conversion
var Code_Point = function(High_Surrogate, Low_Surrogate){
return (High_Surrogate - 0xD800) * 0x400 + Low_Surrogate - 0xDC00 + 0x10000;
};
> var codepoint = 0x1F4A9; // 0x1F4A9 == 128169
> High_Surrogate(codepoint).toString(16)
"d83d" // 0xD83D == 55357
> Low_Surrogate(codepoint).toString(16)
"dca9" // 0xDCA9 == 56489
> String.fromCharCode( High_Surrogate(codepoint) , Low_Surrogate(codepoint) );
""
> String.fromCodePoint(0x1F4A9)
""
> 'ud83dudca9'
""
Юникод включает в себя механизм для изменения формы символа, который значительно расширяет поддерживаемый набор глифов. Это касается комбинируемых диакритических знаков. Они вставляются после главного знака. На один и тот же знак можно наложить несколько комбинируемых диакритических знаков. Юникод также содержит предварительно составленные версии большинства таких комбинаций для нормального использования.
Некоторые последовательности символов также можно представить в виде одного символа, который называется предварительно составленным символом (precomposed character), он же составной символ (composite character). Например, символ [ü] можно закодировать как единственную кодовую точку U+00FC или как базовый символ U+0075 (u), за которым следует несамостоятельный знак U+0308 (¨). Стандарт Юникод кодирует составные символы для совместимости с установленными стандартами, такими как Latin 1, который включает в себя множество составных символов, таких как [ü] и [ñ].
Составные символы можно разложить для согласованности или анализа. Например, при сортировке имён по алфавиту символ [ü] можно разложить на [u], за которым следует несамостоятельный знак [¨]. После такой декомпозиции алгоритму проще работать с последовательностью символов. Это позволяет упростить сортировку в языках, где модификаторы символов не влияют на алфавитный порядок. Стандарт Юникод устанавливает порядок декомпозиции [35] для всех составных символов. Он также определяет формы нормализации для обеспечения уникальных представлений символов.
Из слайдов презентации Марка Дэвиса «Мифы Юникода» [36].
Тип кодирования | Пример |
---|---|
Объект HTML (десятичный) | |
Объект HTML (hex) | |
Управляющий код URL | %F0%9F%96%96 |
UTF-8 (hex) | 0xF0 0x9F 0x96 0x96 (f09f9696) |
UTF-8 (бинарный) | 11110000:10011111:10010110:10010110 |
UTF-16/UTF-16BE (hex) | 0xD83D 0xDD96 (d83ddd96) |
UTF-16LE (hex) | 0x3DD8 0x96DD (3dd896dd) |
UTF-32/UTF-32BE (hex) | 0x0001F596 (0001f596) |
UTF-32LE (hex) | 0x96F50100 (96f50100) |
Восьмеричная управляющая последовательность | 360237226226 |
Тип кодирования | Пример |
---|---|
JavaScript | u1F596 |
JSON | u1F596 |
C | u1F596 |
C++ | u1F596 |
Java | u1F596 |
Python | u1F596 |
Perl | x{1F596} |
Ruby | u{1F596} |
CSS | 1F596 |
Совместный доступ к документу может быстро превратить редактирование в письменную рэп-битву, ведущуюся все более запутанной расстановкой управляющих от U+202a до U+202e
Консорциум Unicode опубликовал диаграмму общей пунктуации [38], где можете найти более подробную информацию.
Символ | Название | Описание |
---|---|---|
'' |
U+FEFF Неразрывный пробел нулевой ширины (Byte Order Mark — BOM) | Обладает важным свойством однозначности при изменении порядка байтов. У него также нулевая ширина и невидимость. В неподходщем программном обеспечении (например, интерпретаторе PHP) это приводит к всевозможным примерам забавного поведения. |
'' |
'uFFEF' Обратный BOM | Не приравнивается к символу, кроме начала текста. |
'' |
'u200B' Неразрывное пространство нулевой ширины | Символ без внешнего вида и без эффекта, кроме предотвращения образования лигатур. |
' ' |
U+00A0 Неразрывный пробел | Заставляет соседние символы держаться вместе. Хорошо известен как в HTML. |
'' |
U+00AD Мягкий дефис | В HTML работает как пространство нулевой ширины, но при встрече с концом строки (и только в этом случае) показывает дефис. |
'' |
U+200D Знак нулевой ширины (с объединением) | Заставляет соединяться соседние символы (например, арабские символы или поддерживаемые эмодзи). Можно использовать для последовательно скомбинированных эмодзи. |
'' |
U+2060 Соединитель слов | То же самое, что и U+00A0, но совершенно невидимый. Хорошо подходит для @font-face в Twitter. |
' ' |
U+1680 Огам знак пробела | Отмечает пробел, который выглядит как тире. Отлично паодходит, чтобы приблизить программистов к безумию: 1 + 2 === 3. |
';' |
U+037E Греческий знак вопроса | Похож на точку с запятой. Также забавный способ троллить разработчиков. |
'' |
U+202D | Изменяет направление текста слева-направо. |
'' |
U+202E | Изменяет направление текста справа-налево. |
'ꓸ' |
U+A4F8 Лису буква tone mya ti | Двойник для точки. |
'ꓹ' |
U+A4F9 Лису буква tone na po | Двойник для запятой. |
'ꓼ' |
U+A4FC Лису буква tone mya na | Двойник для точки с запятой. |
'ꓽ' |
U+A4FD Лису буква tone mya jeu | Двойник для двоеточия. |
'︀' |
Вариантные селекторы (от U+FE00 до U+FE0F и от U+E0100 до U+E01EF) | Блок из 256 символов нулевой ширины, которые обладают свойством ID_Continue, то есть могут использоваться в именах переменных (не первая буква). Что делает их особенными, так это то, что над ними проходит курсор мыши, поскольку они объединяют символы, в отличие от большинства других символов нулевой ширины. |
'ᅟ' |
U+115F Заполнитель хангыль чхосон | По сути, заполняет пространство. Визуализируется как символ нулевой ширины (невидимый), если явно не поддерживается при визуализации. Обозначен как ID_Start |
'ᅠ' |
U+1160 Заполнитель чунсон | Возможно, заполняет пространство? Визуализируется как символ нулевой ширины (невидимый), если явно не поддерживается при визуализации. Обозначен как ID_Start |
'ㅤ' |
U+3164 Заполнитель хангыль | В целом, заполняет пространство. Визуализируется как символ нулевой ширины (невидимый), если явно не поддерживается при визуализации. Обозначен как ID_Start |
Подожди… что я только что прочитал?
U+3164 Заполнитель хангыль отображается в виде широкого пробела. Если символ явно не поддерживается в рендеринге [39], то отображается как полностью невидимый (и не занимает место, т. е. «нулевой ширины»). Это означает, что вы никогда не увидите уродливый символ замены символов (�).
Я пока не уверен, почему U+3164 указано вести себя таким образом. Интересно, что U+3164 был добавлен в Юникод в версии 1.1 (1993) — так что у специалистов Консорциума было много времени, чтобы его продумать. Во всяком случае, вот несколько примеров.
> var ᅟ = 'foo';
undefined
> ᅟ
'foo'
> var ㅤ= alert;
undefined
> var foo = 'bar'
undefined
> if ( foo ===ㅤ`baz` ){} // alert
undefined
> var varㅤfooㅤu{A60C}ㅤπ = 'bar';
undefined
> varㅤfooㅤꘌㅤπ
'bar'
**Примечание:** я тестировал рендеринг U+3164 на Ubuntu и OS X со следующими параметрами: `node`, `php`, `ruby`, `python3.5`, `scala`, `vim`, `cat`, `chrome`+`github gist'. Atom — единственная система, которая терпит неудачу, (некорректно) отображая пустые поля. Мне ещё предстоит проверить код в Emacs и Sublime. Насколько я понимаю, Консорциум Юникод не будет переназначать или переименовывать символы или кодовые точки, но его можно убедить изменить свойства символов, таких как ID_Start и ID_Continue.
Объединитель нулевой ширины (ZWJ) является непечатным символом в компьютерном наборе некоторых сложных шрифтов, таких как арабский или любой индийский шрифт. При помещении между двумя символами, которые в противном случае не были бы связаны, ZWJ заставляет их печататься в объединённой форме.
Разъединитель нулевой ширины (ZWNJ) — это непечатный символ в компьютерных наборах письменностей с лигатурами. При размещении между двумя символами, которые в противном случае были бы соединены в лигатуру, ZWNJ заставляет их печататься в их окончательной и первоначальной формах, соответственно. Действует как пробел, но используется в том случае, когда желательно удерживать слова рядом друг с другом или соединить слово с его морфемой.
> 'a'
"a"
> 'au{0308}'
"ä"
> 'au{20DE}u{0308}'
"a⃞̈"
> 'au{20DE}u{0308}u{20DD}'
"a⃞̈⃝"
// Modifying Invisible Characters
> 'u{200E}u{200E}u{200E}u{200E}u{200E}u{200E}u{200E}u{200E}u{200E}u{200E}'
""
> 'u{200E}u{200E}u{200E}u{200E}u{200E}u{200E}u{200E}u{200E}u{200E}u{200E}'.length
10
Символ | Кодовая точка | Результат |
---|---|---|
ß | 0x00DF | SS |
ı | 0x0131 | I |
ſ | 0x017F | S |
ff | 0xFB00 | FF |
fi | 0xFB01 | FI |
fl | 0xFB02 | FL |
ffi | 0xFB03 | FFI |
ffl | 0xFB04 | FFL |
ſt | 0xFB05 | ST |
st | 0xFB06 | ST |
Символ | Кодовая точка | Результат |
---|---|---|
K | 0x212A | k |
a + ̈ == ̈a
. Это увеличивает длину строки, производя только один символ.
Большинство нижеприведенных символов выражают свои сопоставления «один ко многим» в верхнем регистре, а другие в нижнем. В принципе, список можно разделить на две части.
Кодовая точка | Символ | Название | Сопоставленный символ | Сопоставленные кодовые точки |
---|---|---|---|---|
U+00DF [41] | ß |
Латинская строчная буква эсцет (S острое) | s , s |
U+0073, U+0073 |
U+0130 [42] | İ |
Латинская заглавная буква «I» с точкой сверху | i , ̇ |
U+0069, U+0307 |
U+0149 [43] | ʼn |
Латинская строчная буква «n» предшествующим апострофом | ʼ , n |
U+02BC, U+006E |
U+01F0 [44] | ǰ |
Латинская строчная буква «j» с гачеком | j , ̌ |
U+006A, U+030C |
U+0390 [45] | ΐ |
Греческая строчная буква йота с диалитика и тонос | ι , ̈ , ́ |
U+03B9, U+0308, U+0301 |
U+03B0 [46] | ΰ |
Греческая строчная буква ипсилон с диалитика и тонос | υ , ̈ , ́ |
U+03C5, U+0308, U+0301 |
U+0587 [47] | և |
Армянская строчная лигатура ech yiwn | ե , ւ |
U+0565, U+0582 |
U+1E96 [48] | ẖ |
Латинская строчная буква h с линией снизу | h , ̱ |
U+0068, U+0331 |
U+1E97 [49] | ẗ |
Латинская строчная буква t с диэрезисом | t , ̈ |
U+0074, U+0308 |
U+1E98 [50] | ẘ |
Латинская строчная буква w с кольцом выше | w , ̊ |
U+0077, U+030A |
U+1E99 [51] | ẙ |
Латинская строчная буква y с кольцом выше | y , ̊ |
U+0079, U+030A |
U+1E9A [52] | ẚ |
Латинская строчная буква a с правой половинкой кольца | a , ʾ |
U+0061, U+02BE |
U+1E9E [53] | ẞ |
Латинская заглавная буква острая s | s , s |
U+0073, U+0073 |
U+1F50 [54] | ὐ |
Греческая строчная буква ипсилон с псили | υ , ̓ |
U+03C5, U+0313 |
U+1F52 [55] | ὒ |
Греческая строчная буква ипсилон с псили и вария | υ , ̓ , ̀ |
U+03C5, U+0313, U+0300 |
U+1F54 [56] | ὔ |
Греческая строчная буква ипсилон с псили и оксия | υ , ̓ , ́ |
U+03C5, U+0313, U+0301 |
U+1F56 [57] | ὖ |
Греческая строчная буква ипсилон с псили и периспоменти | υ , ̓ , ͂ |
U+03C5, U+0313, U+0342 |
U+1F80 [58] | ᾀ |
Греческая строчная буква альфа с псили и ипогеграммены | ἀ , ι |
U+1F00, U+03B9 |
U+1F81 [59] | ᾁ |
Греческая строчная буква альфа с дасия и ипогеграммены | ἁ , ι |
U+1F01, U+03B9 |
U+1F82 [60] | ᾂ |
Греческая строчная буква альфа с псили и вария и ипогеграммены | ἂ , ι |
U+1F02, U+03B9 |
U+1F83 [61] | ᾃ |
Греческая строчная буква альфа с дасия и вария и ипогеграммены | ἃ , ι |
U+1F03, U+03B9 |
U+1F84 [62] | ᾄ |
Греческая строчная буква альфа с псили и оксия и ипогеграммены | ἄ , ι |
U+1F04, U+03B9 |
U+1F85 [63] | ᾅ |
Греческая строчная буква альфа с дасия и оксия и ипогеграммены | ἅ , ι |
U+1F05, U+03B9 |
U+1F86 [64] | ᾆ |
Греческая строчная буква альфа с псили и периспоменти и ипогеграммены | ἆ , ι |
U+1F06, U+03B9 |
U+1F87 [65] | ᾇ |
Греческая строчная буква альфа с дасия и периспоменти и ипогеграммены | ἇ , ι |
U+1F07, U+03B9 |
U+1F88 [66] | ᾈ |
Греческая заглавная буква альфа с псили и просгеграммены | ἀ , ι |
U+1F00, U+03B9 |
U+1F89 [67] | ᾉ |
Греческая заглавная буква альфа с дасия и просгеграммены | ἁ , ι |
U+1F01, U+03B9 |
U+1F8A [68] | ᾊ |
Греческая заглавная буква альфа с псили и вария и просгеграммены | ἂ , ι |
U+1F02, U+03B9 |
U+1F8B [69] | ᾋ |
Греческая заглавная буква альфа с дасия и вария и просгеграммены | ἃ , ι |
U+1F03, U+03B9 |
U+1F8C [70] | ᾌ |
Греческая заглавная буква альфа с псили и оксия и просгеграммены | ἄ , ι |
U+1F04, U+03B9 |
U+1F8D [71] | ᾍ |
Греческая заглавная буква альфа с дасия и оксия и просгеграммены | ἅ , ι |
U+1F05, U+03B9 |
U+1F8E [72] | ᾎ |
Греческая заглавная буква альфа с псили и периспоменти и просгеграммены | ἆ , ι |
U+1F06, U+03B9 |
U+1F8F [73] | ᾏ |
Греческая заглавная буква альфа с дасия и периспоменти и просгеграммены | ἇ , ι |
U+1F07, U+03B9 |
U+1F90 [74] | ᾐ |
Греческая строчная буква эта с псили и ипогеграммены | ἠ , ι |
U+1F20, U+03B9 |
U+1F91 [75] | ᾑ |
Греческая строчная буква эта с дасия и ипогеграммены | ἡ , ι |
U+1F21, U+03B9 |
U+1F92 [76] | ᾒ |
Греческая строчная буква эта с псили и вария и ипогеграммены | ἢ , ι |
U+1F22, U+03B9 |
U+1F93 [77] | ᾓ |
Греческая строчная буква эта с дасия и вария и ипогеграммены | ἣ , ι |
U+1F23, U+03B9 |
U+1F94 [78] | ᾔ |
Греческая строчная буква эта с псили и оксия и ипогеграммены | ἤ , ι |
U+1F24, U+03B9 |
U+1F95 [79] | ᾕ |
Греческая строчная буква эта с дасия и оксия и ипогеграммены | ἥ , ι |
U+1F25, U+03B9 |
U+1F96 [80] | ᾖ |
Греческая строчная буква эта с псили и периспоменти и ипогеграммены | ἦ , ι |
U+1F26, U+03B9 |
U+1F97 [81] | ᾗ |
Греческая строчная буква эта с дасия и периспоменти и ипогеграммены | ἧ , ι |
U+1F27, U+03B9 |
U+1F98 [82] | ᾘ |
Греческая заглавная буква эта с псили и просгеграммены | ἠ , ι |
U+1F20, U+03B9 |
U+1F99 [83] | ᾙ |
Греческая заглавная буква эта с дасия и просгеграммены | ἡ , ι |
U+1F21, U+03B9 |
U+1F9A [84] | ᾚ |
Греческая заглавная буква эта с псили и вария и просгеграммены | ἢ , ι |
U+1F22, U+03B9 |
U+1F9B [85] | ᾛ |
Греческая заглавная буква эта с дасия и вария и просгеграммены | ἣ , ι |
U+1F23, U+03B9 |
U+1F9C [86] | ᾜ |
Греческая заглавная буква эта с псили и оксия и просгеграммены | ἤ , ι |
U+1F24, U+03B9 |
U+1F9D [87] | ᾝ |
Греческая заглавная буква эта с дасия и оксия и просгеграммены | ἥ , ι |
U+1F25, U+03B9 |
U+1F9E [88] | ᾞ |
Греческая заглавная буква эта с псили и периспоменти и просгеграммены | ἦ , ι |
U+1F26, U+03B9 |
U+1F9F [89] | ᾟ |
Греческая заглавная буква эта с дасия и периспоменти и просгеграммены | ἧ , ι |
U+1F27, U+03B9 |
U+1FA0 [90] | ᾠ |
Греческая строчная буква омега с псили и ипогеграммены | ὠ , ι |
U+1F60, U+03B9 |
U+1FA1 [91] | ᾡ |
Греческая строчная буква омега с дасия и ипогеграммены | ὡ , ι |
U+1F61, U+03B9 |
U+1FA2 [92] | ᾢ |
Греческая строчная буква омега с псили и вария и ипогеграммены | ὢ , ι |
U+1F62, U+03B9 |
U+1FA3 [93] | ᾣ |
Греческая строчная буква омега с дасия и вария и ипогеграммены | ὣ , ι |
U+1F63, U+03B9 |
U+1FA4 [94] | ᾤ |
Греческая строчная буква омега с псили и оксия и ипогеграммены | ὤ , ι |
U+1F64, U+03B9 |
U+1FA5 [95] | ᾥ |
Греческая строчная буква омега с дасия и оксия и ипогеграммены | ὥ , ι |
U+1F65, U+03B9 |
U+1FA6 [96] | ᾦ |
Греческая строчная буква омега с псили и периспоменти и ипогеграммены | ὦ , ι |
U+1F66, U+03B9 |
U+1FA7 [97] | ᾧ |
Греческая строчная буква омега с дасия и периспоменти и ипогеграммены | ὧ , ι |
U+1F67, U+03B9 |
U+1FA8 [98] | ᾨ |
Греческая заглавная буква омега с псили и просгеграммены | ὠ , ι |
U+1F60, U+03B9 |
U+1FA9 [99] | ᾩ |
Греческая заглавная буква омега с дасия и просгеграммены | ὡ , ι |
U+1F61, U+03B9 |
U+1FAA [100] | ᾪ |
Греческая заглавная буква омега с псили и вария и просгеграммены | ὢ , ι |
U+1F62, U+03B9 |
U+1FAB [101] | ᾫ |
Греческая заглавная буква омега с дасия и вария и просгеграммены | ὣ , ι |
U+1F63, U+03B9 |
U+1FAC [102] | ᾬ |
Греческая заглавная буква омега с псили и оксия и просгеграммены | ὤ , ι |
U+1F64, U+03B9 |
U+1FAD [103] | ᾭ |
Греческая заглавная буква омега с дасия и оксия и просгеграммены | ὥ , ι |
U+1F65, U+03B9 |
U+1FAE [104] | ᾮ |
Греческая заглавная буква омега с псили и периспоменти и просгеграммены | ὦ , ι |
U+1F66, U+03B9 |
U+1FAF [105] | ᾯ |
Греческая заглавная буква омега с дасия и периспоменти и просгеграммены | ὧ , ι |
U+1F67, U+03B9 |
U+1FB2 [106] | ᾲ |
Греческая строчная буква альфа с вария и ипогеграммены | ὰ , ι |
U+1F70, U+03B9 |
U+1FB3 [107] | ᾳ |
Греческая строчная буква альфа с ипогеграммены | α , ι |
U+03B1, U+03B9 |
U+1FB4 [108] | ᾴ |
Греческая строчная буква альфа с оксия и ипогеграммены | ά , ι |
U+03AC, U+03B9 |
U+1FB6 [109] | ᾶ |
Греческая строчная буква альфа с периспоменти | α , ͂ |
U+03B1, U+0342 |
U+1FB7 [110] | ᾷ |
Греческая строчная буква альфа с периспоменти и ипогеграммены | α , ͂ , ι |
U+03B1, U+0342, U+03B9 |
U+1FBC [111] | ᾼ |
Греческая заглавная буква альфа с просгеграммены | α , ι |
U+03B1, U+03B9 |
U+1FC2 [112] | ῂ |
Греческая строчная буква эта с вария и ипогеграммены | ὴ , ι |
U+1F74, U+03B9 |
U+1FC3 [113] | ῃ |
Греческая строчная буква эта с ипогеграммены | η , ι |
U+03B7, U+03B9 |
U+1FC4 [114] | ῄ |
Греческая строчная буква эта с оксия и ипогеграммены | ή , ι |
U+03AE, U+03B9 |
U+1FC6 [115] | ῆ |
Греческая строчная буква эта с периспоменти | η , ͂ |
U+03B7, U+0342 |
U+1FC7 [116] | ῇ |
Греческая строчная буква эта с периспоменти и ипогеграммены | η , ͂ , ι |
U+03B7, U+0342, U+03B9 |
U+1FCC [117] | ῌ |
Греческая заглавная буква эта с просгеграммены | η , ι |
U+03B7, U+03B9 |
U+1FD2 [118] | ῒ |
Греческая строчная буква йота с диалитика и вария | ι , ̈ , ̀ |
U+03B9, U+0308, U+0300 |
U+1FD3 [119] | ΐ |
Греческая строчная буква йота с диалитика и оксия | ι , ̈ , ́ |
U+03B9, U+0308, U+0301 |
U+1FD6 [120] | ῖ |
Греческая строчная буква йота с периспоменти | ι , ͂ |
U+03B9, U+0342 |
U+1FD7 [121] | ῗ |
Греческая строчная буква йота с диалитика и периспоменти | ι , ̈ , ͂ |
U+03B9, U+0308, U+0342 |
U+1FE2 [122] | ῢ |
Греческая строчная буква ипсилон с диалитика и вария | υ , ̈ , ̀ |
U+03C5, U+0308, U+0300 |
U+1FE3 [123] | ΰ |
Греческая строчная буква ипсилон с диалитика и оксия | υ , ̈ , ́ |
U+03C5, U+0308, U+0301 |
U+1FE4 [124] | ῤ |
Греческая строчная буква rho с псили | ρ , ̓ |
U+03C1, U+0313 |
U+1FE6 [125] | ῦ |
Греческая строчная буква ипсилон с периспоменти | υ , ͂ |
U+03C5, U+0342 |
U+1FE7 [126] | ῧ |
Греческая строчная буква ипсилон с диалитика и периспоменти | υ , ̈ , ͂ |
U+03C5, U+0308, U+0342 |
U+1FF2 [127] | ῲ |
Греческая строчная буква омега с вария и ипогеграммены | ὼ , ι |
U+1F7C, U+03B9 |
U+1FF3 [128] | ῳ |
Греческая строчная буква омега с ипогеграммены | ω , ι |
U+03C9, U+03B9 |
U+1FF4 [129] | ῴ |
Греческая строчная буква омега с оксия и ипогеграммены | ώ , ι |
U+03CE, U+03B9 |
U+1FF6 [130] | ῶ |
Греческая строчная буква омега с периспоменти | ω , ͂ |
U+03C9, U+0342 |
U+1FF7 [131] | ῷ |
Греческая строчная буква омега с периспоменти и ипогеграммены | ω , ͂ , ι |
U+03C9, U+0342, U+03B9 |
U+1FFC [132] | ῼ |
Греческая заглавная буква омега с просгеграммены | ω , ι |
U+03C9, U+03B9 |
U+FB00 [133] | ff |
Латинская строчная лигатура Ff | f , f |
U+0066, U+0066 |
U+FB01 [134] | fi |
Латинская строчная лигатура Fi | f , i |
U+0066, U+0069 |
U+FB02 [135] | fl |
Латинская строчная лигатура Fl | f , l |
U+0066, U+006C |
U+FB03 [136] | ffi |
Латинская строчная лигатура Ffi | f , f , i |
U+0066, U+0066, U+0069 |
U+FB04 [137] | ffl |
Латинская строчная лигатура Ffl | f , f , l |
U+0066, U+0066, U+006C |
U+FB05 [138] | ſt |
Латинская строчная лигатура длинная S T | s , t |
U+0073, U+0074 |
U+FB06 [139] | st |
Латинская строчная лигатура St | s , t |
U+0073, U+0074 |
U+FB13 [140] | ﬓ |
Армянская строчная лигатура Men Now | մ , ն |
U+0574, U+0576 |
U+FB14 [141] | ﬔ |
Армянская строчная лигатура Men Ech | մ , ե |
U+0574, U+0565 |
U+FB15 [142] | ﬕ |
Армянская строчная лигатура Men Ini | մ , ի |
U+0574, U+056B |
U+FB16 [143] | ﬖ |
Армянская строчная лигатура Vew Now | վ , ն |
U+057E, U+0576 |
U+FB17 [144] | ﬗ |
Армянская строчная лигатура Men Xeh | մ , խ |
U+0574, U+056D |
Консорциум Unicode приложил огромные усилия для лучшего отражения человеческого многообразия (diversity), включая культурные практики. Вот отчёт [155] Консорциума о многообразии.
Теперь доступны эмодзи для разных гендерных ситуаций, включая однополые семьи, держащиеся руки и поцелуи. Последний функционал — это составные последовательности эмодзи [156]. Основные примеры:
Кодовые точки | Рецепт | Сочетание |
---|---|---|
U+1F469 U+200D U+2764 U+FE0F U+200D U+1F469 | ||
U+1F468 U+200D U+1F468 U+200D U+1F467 U+200D U+1F466 |
Кроме того, эмодзи теперь поддерживают модификаторы цвета кожи.
В Юникоде версии 8.0 (середина 2015 года) появилось пять символов-модификаторов символов для оттенков человеческой кожи. Эти символы основаны на шести оттенках по шкале Фицпатрика, признанного стандарта в дерматологии (в интернете много примеров этой шкалы, таких как FitzpatrickSkinType.pdf). Точные оттенки зависят от реализации.
Код | Название | Примеры |
---|---|---|
U+1F3FB | Модификатор эмодзи для шкалы Фицпатрика типы-1-2 | |
U+1F3FC | Модификатор эмодзи для шкалы Фицпатрика тип-3 | |
U+1F3FD | Модификатор эмодзи для шкалы Фицпатрика тип-4 | |
U+1F3FE | Модификатор эмодзи для шкалы Фицпатрика тип-5 | |
U+1F3FF | Модификатор эмодзи для шкалы Фицпатрика тип-6 |
Просто выбирайте нужный эмодзи, указав один из модификаторов цвета кожи u{1F466}u{1F3FE}
.
+
→
Примеры на JavaScript (ES6)
Обычно символы, обозначенные свойством ID_START [157], можно ставить в начале названия переменной. Символы, обозначенные свойством ID_CONTINUE [158], можно ставить после первого символа в имени переменной.
// How convenient!
var π = Math.PI;
// Sometimes, you just have to use the Bad Parts of JavaScript:
var ಠ_ಠ = eval;
// Code, Y U NO WORK?!
var ლ_ಠ益ಠ_ლ = 42;
// How about a JavaScript library for functional programming?
var λ = function() {};
// Obfuscate boring variable names for great justice
var u006Cu006Fu006Cu0077u0061u0074 = 'heh';
// …or just make up random ones
var Ꙭൽↈⴱ = 'huh';
// While perfectly valid, this doesn’t work in most browsers:
var foou200Cbar = 42;
// This is *not* a bitwise left shift (`<<`):
var 〱〱 = 2;
// This is, though:
〱〱 << 〱〱; // 8
// Give yourself a discount:
var price_9̶9̶_89 = 'cheap';
// Fun with Roman numerals
var Ⅳ = 4;
var Ⅴ = 5;
Ⅳ + Ⅴ; // 9
// Cthulhu was here
var Hͫ̆̒̐ͣ̊̄ͯ͗͏̵̗̻̰̠̬͝ͅE̴̷̬͎̱̘͇͍̾ͦ͊͒͊̓̓̐_̫̠̱̩̭̤͈̑̎̋ͮͩ̒͑̾͋͘Ç̳͕̯̭̱̲̣̠̜͋̍O̴̦̗̯̹̼ͭ̐ͨ̊̈͘͠M̶̝̠̭̭̤̻͓͑̓̊ͣͤ̎͟͠E̢̞̮̹͍̞̳̣ͣͪ͐̈T̡̯̳̭̜̠͕͌̈́̽̿ͤ̿̅̑Ḧ̱̱̺̰̳̹̘̰́̏ͪ̂̽͂̀͠ = 'Zalgo';
А вот некоторые юникодовские классы CSS [159] от Дэвида Уолша.
<!-- place this within the document head -->
<meta charset="UTF-8" />
<!-- error message -->
<div class="ಠ_ಠ">You do not have access to this page.</div>
<!-- success message -->
<div class="">Your changes have been saved successfully!</div>
.ಠ_ಠ {
border: 1px solid #f00;
}
. {
background: lightgreen;
}
Если вы хотите переименовать все свои HTML-теги в нечто невидимое, вот скрипт, который вам нужен.
Только обратите внимание, что HTML поддерживает не все символы Юникода.
// U+1160 HANGUL JUNGSEONG FILLER
transformAllTags('ᅠ');
// An actual HTML element node designed to look like a comment node, using the U+01C3 LATIN LETTER RETROFLEX CLICK
// <ǃ-- name="viewport" content="width=device-width"></ǃ-->
transformAllTags('ǃ--');
// or even <ᅠ⃝
transformAllTags('u{1160}u{20dd}');
// and for a bonus, all existing tag names will have each character ensquared. h⃞t⃞m⃞l⃞
transformAllTags();
function transformAllTags (newName){
// querySelectorAll doesn't actually return an array.
Array.from(document.querySelectorAll('*'))
.forEach(function(x){
transformTag(x, newName);
});
}
function wonky(str){
return str.split('').join('u{20de}') + 'u{20de}';
}
function transformTag(tagIdOrElem, tagType){
var elem = (tagIdOrElem instanceof HTMLElement) ? tagIdOrElem : document.getElementById(tagIdOrElem);
if(!elem || !(elem instanceof HTMLElement))return;
var children = elem.childNodes;
var parent = elem.parentNode;
var newNode = document.createElement(tagType||wonky(elem.tagName));
for(var a=0;a<elem.attributes.length;a++){
newNode.setAttribute(elem.attributes[a].nodeName, elem.attributes[a].value);
}
for(var i= 0,clen=children.length;i<clen;i++){
newNode.appendChild(children[0]); //0...always point to the first non-moved element
}
newNode.style.cssText = elem.style.cssText;
parent.replaceChild(newNode,elem);
}
Вот что он поддерживает:
function testBegin(str){
try{
eval(`document.createElement( '${str}' );`)
return true;
}
catch(e){ return false; }
}
function testContinue(str){
try{
eval(`document.createElement( 'a${str}' );`)
return true;
}
catch(e){ return false; }
}
А вот некоторые результаты:
// Test if dashes can start an HTML Tag
> testBegin('-')
< false
> testContinue('-')
< true
> testBegin('ᅠ-') // Prepend dash with U+1160 HANGUL JUNGSEONG FILLER
< true
Ни один шрифт TrueType или OpenType не способен охватить все символы UTF-8, поскольку есть жёсткое ограничение на 65 535 символов в шрифте. Если у нас более 1,1 миллиона глифов UTF-8, то для полного покрытия придётся делать семейство шрифтов.
Каждое нумерованное поле представляет собой 256 кодовых точек.
Китайские, японские и корейские (ККЯ) письменности объединены одним цветом как символы ККЯ (CJK). В процессе, который называется унификацией Хань, распознаются общие символы и составляется список «унифицированных идеограмм ККЯ».
Стандарт Юникод объединяет группы символов в блоки. Вот полный список блоков по всем 17-ти плоскостям.
Название | От | До | # кодовых точек |
---|---|---|---|
Основная латиница [168] | U+0000 | U+007F | 128 |
Дополнение к латинице — 1 [169] | U+0080 | U+00FF | 128 |
Расширенная латиница — A [170] | U+0100 | U+017F | 128 |
Расширенная латиница — B [171] | U+0180 | U+024F | 208 |
Расширения МФА [172] | U+0250 | U+02AF | 96 |
Модификаторы букв [173] | U+02B0 | U+02FF | 80 |
Комбинируемые диакритические знаки [174] | U+0300 | U+036F | 112 |
Греческое и коптское письмо [175] | U+0370 | U+03FF | 135 |
Кириллица [176] | U+0400 | U+04FF | 256 |
Дополнение к кириллице [177] | U+0500 | U+052F | 48 |
Армянское письмо [178] | U+0530 | U+058F | 89 |
Еврейское письмо [179] | U+0590 | U+05FF | 87 |
Арабское письмо [180] | U+0600 | U+06FF | 255 |
Сирийское письмо [181] | U+0700 | U+074F | 77 |
Дополнение к арабскому письму [182] | U+0750 | U+077F | 48 |
Тана [183] | U+0780 | U+07BF | 50 |
Нко [184] | U+07C0 | U+07FF | 59 |
Самаритянское письмо [185] | U+0800 | U+083F | 61 |
Мандейское письмо [186] | U+0840 | U+085F | 29 |
Расширенное арабское письмо — A [187] | U+08A0 | U+08FF | 50 |
Девангари [188] | U+0900 | U+097F | 128 |
Бенгальское письмо [189] | U+0980 | U+09FF | 93 |
Гурмукхи [190] | U+0A00 | U+0A7F | 79 |
Гуджарати [191] | U+0A80 | U+0AFF | 85 |
Ория [192] | U+0B00 | U+0B7F | 90 |
Тамильское письмо [193] | U+0B80 | U+0BFF | 72 |
Телугу [194] | U+0C00 | U+0C7F | 96 |
Каннада [195] | U+0C80 | U+0CFF | 87 |
Малаялам [196] | U+0D00 | U+0D7F | 100 |
Сингальское письмо [197] | U+0D80 | U+0DFF | 90 |
Тайское письмо [198] | U+0E00 | U+0E7F | 87 |
Лаосское письмо [199] | U+0E80 | U+0EFF | 67 |
Тибетское письмо [200] | U+0F00 | U+0FFF | 211 |
Бирманское письмо [201] | U+1000 | U+109F | 160 |
Грузинское письмо [202] | U+10A0 | U+10FF | 88 |
Элементы хангыля [203] | U+1100 | U+11FF | 256 |
Эфиопское письмо [204] | U+1200 | U+137F | 358 |
Дополнение к эфиопскому письму [205] | U+1380 | U+139F | 26 |
Чероки [206] | U+13A0 | U+13FF | 92 |
Канадское слоговое письмо [207] | U+1400 | U+167F | 640 |
Огамическое письмо [208] | U+1680 | U+169F | 29 |
Руны [209] | U+16A0 | U+16FF | 89 |
Байбайин [210] | U+1700 | U+171F | 20 |
Хануноо [211] | U+1720 | U+173F | 23 |
Бухид [212] | U+1740 | U+175F | 20 |
Тагбанва [213] | U+1760 | U+177F | 18 |
Кхмерское письмо [214] | U+1780 | U+17FF | 114 |
Старомонгольское письмо [215] | U+1800 | U+18AF | 156 |
Расширенное канадское слоговое письмо [216] | U+18B0 | U+18FF | 70 |
Лимбу [217] | U+1900 | U+194F | 68 |
Лы [218] | U+1950 | U+197F | 35 |
Ныа [219] | U+1980 | U+19DF | 83 |
Кхмерские символы [220] | U+19E0 | U+19FF | 32 |
Лонтара [221] | U+1A00 | U+1A1F | 30 |
Ланна [222] | U+1A20 | U+1AAF | 127 |
Расширенные комбинируемые диакритические знаки [223] | U+1AB0 | U+1AFF | 15 |
Балийское письмо [224] | U+1B00 | U+1B7F | 121 |
Сунданское письмо [225] | U+1B80 | U+1BBF | 64 |
Батакское письмо [226] | U+1BC0 | U+1BFF | 56 |
Лепча [227] | U+1C00 | U+1C4F | 74 |
Ол-чики [228] | U+1C50 | U+1C7F | 48 |
Дополнение к сунданскому письму [229] | U+1CC0 | U+1CCF | 8 |
Расширения Веды [230] | U+1CD0 | U+1CFF | 41 |
Фонетические расширения [231] | U+1D00 | U+1D7F | 128 |
Дополнение к фонетическим расширениям [232] | U+1D80 | U+1DBF | 64 |
U+1DFF Дополнение к комбинируемым диакритическим знакам [233] | U+1DC0 | U+1DFF | 58 |
Дополнительная расширенная латиница [234] | U+1E00 | U+1EFF | 256 |
Расширенное греческое письмо [235] | U+1F00 | U+1FFF | 233 |
Основная пунктуация [236] | U+2000 | U+206F | 111 |
Надстрочные и подстрочные знаки [237] | U+2070 | U+209F | 42 |
Знаки валют [238] | U+20A0 | U+20CF | 31 |
Комбинируемые диакритические знаки для символов [239] | U+20D0 | U+20FF | 33 |
Буквоподобные символы [240] | U+2100 | U+214F | 80 |
Числовые формы [241] | U+2150 | U+218F | 60 |
Стрелки [242] | U+2190 | U+21FF | 112 |
Математические операторы [243] | U+2200 | U+22FF | 256 |
Разные технические знаки [244] | U+2300 | U+23FF | 251 |
Пиктограммы управляющих символов [245] | U+2400 | U+243F | 39 |
Оптическое распознавание символов [246] | U+2440 | U+245F | 11 |
Обрамлённые буквы и цифры [247] | U+2460 | U+24FF | 160 |
Псевдографика [248] | U+2500 | U+257F | 128 |
Блочные элементы [249] | U+2580 | U+259F | 32 |
Геометрические фигуры [250] | U+25A0 | U+25FF | 96 |
Разные символы [251] | U+2600 | U+26FF | 256 |
Dingbats [252] | U+2700 | U+27BF | 192 |
Разные математические символы — A [253] | U+27C0 | U+27EF | 48 |
Дополнительные стрелки — A [254] | U+27F0 | U+27FF | 16 |
Шрифт Брайля [255] | U+2800 | U+28FF | 256 |
Дополнительные стрелки — B [256] | U+2900 | U+297F | 128 |
Разные математические символы — B [257] | U+2980 | U+29FF | 128 |
Дополнительные математические операторы [258] | U+2A00 | U+2AFF | 256 |
Разные символы и стрелки [259] | U+2B00 | U+2BFF | 206 |
Глаголица [260] | U+2C00 | U+2C5F | 94 |
Расширенная латиница — C [261] | U+2C60 | U+2C7F | 32 |
Коптское письмо [262] | U+2C80 | U+2CFF | 123 |
Дополнение к грузинскому письму [263] | U+2D00 | U+2D2F | 40 |
Древнеливийское письмо [264] | U+2D30 | U+2D7F | 59 |
Расширенное эфиопское письмо [265] | U+2D80 | U+2DDF | 79 |
Расширенная кириллица — A [266] | U+2DE0 | U+2DFF | 32 |
Дополнительная пунктуация [267] | U+2E00 | U+2E7F | 67 |
Дополнение к ключам ККЯ [268] | U+2E80 | U+2EFF | 115 |
Ключи Канси [269] | U+2F00 | U+2FDF | 214 |
Идеографические пояснительные символы [270] | U+2FF0 | U+2FFF | 12 |
Символы и пунктуация ККЯ [271] | U+3000 | U+303F | 64 |
Хирагана [272] | U+3040 | U+309F | 93 |
Катакана [273] | U+30A0 | U+30FF | 96 |
Чжуинь фухао [274] | U+3100 | U+312F | 41 |
Совместимые элементы хангыля [275] | U+3130 | U+318F | 94 |
Камбун [276] | U+3190 | U+319F | 16 |
Расширенное чжуинь фухао [277] | U+31A0 | U+31BF | 27 |
Черты ККЯ [278] | U+31C0 | U+31EF | 36 |
Фонетические расширения катаканы [279] | U+31F0 | U+31FF | 16 |
Обрамлённые буквы и месяцы ККЯ [280] | U+3200 | U+32FF | 254 |
Совместимые элементы ККЯ [281] | U+3300 | U+33FF | 256 |
Унифицированные идеограммы ККЯ — расширение A [282] | U+3400 | U+4DBF | 6191 |
Гексаграммы «Книги Перемен» [283] | U+4DC0 | U+4DFF | 64 |
Унифицированные идеограммы ККЯ [284] | U+4E00 | U+9FFF | 20941 |
Слоговое письмо и [285] | U+A000 | U+A48F | 1165 |
Ключи письма и [286] | U+A490 | U+A4CF | 55 |
Лису [287] | U+A4D0 | U+A4FF | 48 |
Ваи [288] | U+A500 | U+A63F | 300 |
Расширенная кириллица — B [289] | U+A640 | U+A69F | 96 |
Бамум [290] | U+A6A0 | U+A6FF | 88 |
Символы изменения тона [291] | U+A700 | U+A71F | 32 |
Расширенная латиница — D [292] | U+A720 | U+A7FF | 159 |
Силхетское нагари [293] | U+A800 | U+A82F | 44 |
Общеиндийские числовые формы [294] | U+A830 | U+A83F | 10 |
Монгольское квадратное письмо [295] | U+A840 | U+A87F | 56 |
Саураштра [296] | U+A880 | U+A8DF | 81 |
Расширенное деванагари [297] | U+A8E0 | U+A8FF | 30 |
Кая-ли [298] | U+A900 | U+A92F | 48 |
Реджанг [299] | U+A930 | U+A95F | 37 |
Расширенные элементы хангыля — A [300] | U+A960 | U+A97F | 29 |
Яванское письмо [301] | U+A980 | U+A9DF | 91 |
Расширенное бирманское письмо — B [302] | U+A9E0 | U+A9FF | 31 |
Чамское письмо [303] | U+AA00 | U+AA5F | 83 |
Расширенное бирманское письмо — A [304] | U+AA60 | U+AA7F | 32 |
Тай-вьет [305] | U+AA80 | U+AADF | 72 |
Расширения манипури [306] | U+AAE0 | U+AAFF | 23 |
Расширенное эфиопское письмо — A [307] | U+AB00 | U+AB2F | 32 |
Расширенная латиница — E [308] | U+AB30 | U+AB6F | 54 |
Дополнение к чероки [309] | U+AB70 | U+ABBF | 80 |
Манипури [310] | U+ABC0 | U+ABFF | 56 |
Слоговое письмо хангыля [311] | U+AC00 | U+D7AF | 2 |
Расширенные элементы хангыля — B [312] | U+D7B0 | U+D7FF | 72 |
Верхняя часть суррогатных пар [313] | U+D800 | U+DB7F | 2 |
Верхняя часть суррогатных пар для частного использования [314] | U+DB80 | U+DBFF | 2 |
Нижняя часть суррогатных пар [315] | U+DC00 | U+DFFF | 2 |
Область для частного использования [316] | U+E000 | U+F8FF | 2 |
Совместимые идеограммы ККЯ [317] | U+F900 | U+FAFF | 472 |
Алфавитные формы представления [318] | U+FB00 | U+FB4F | 58 |
Арабские формы представления — A [319] | U+FB50 | U+FDFF | 643 |
Вариантные селекторы [320] | U+FE00 | U+FE0F | 16 |
Вертикальные формы [321] | U+FE10 | U+FE1F | 10 |
Комбинируемые полузнаки [322] | U+FE20 | U+FE2F | 16 |
Совместимые формы ККЯ [323] | U+FE30 | U+FE4F | 32 |
Малые вариантные формы [324] | U+FE50 | U+FE6F | 26 |
Арабские формы представления — B [325] | U+FE70 | U+FEFF | 141 |
Полуширинные и полноширинные формы [326] | U+FF00 | U+FFEF | 225 |
Специальные символы [327] | U+FFF0 | U+FFFF | 7 |
Слоги линейного письма Б [328] | U+10000 | U+1007F | 88 |
Идеограммы линейного письма Б [329] | U+10080 | U+100FF | 123 |
Эгейские цифры [330] | U+10100 | U+1013F | 57 |
Древнегреческие цифры [331] | U+10140 | U+1018F | 77 |
Древние символы [332] | U+10190 | U+101CF | 13 |
Фестский диск [333] | U+101D0 | U+101FF | 46 |
Ликийское письмо [334] | U+10280 | U+1029F | 29 |
Карийское письмо [335] | U+102A0 | U+102DF | 49 |
Коптские цифры епакты [336] | U+102E0 | U+102FF | 28 |
Древнеиталийское письмо [337] | U+10300 | U+1032F | 36 |
Готское письмо [338] | U+10330 | U+1034F | 27 |
Древнепермское письмо [339] | U+10350 | U+1037F | 43 |
Угаритское письмо [340] | U+10380 | U+1039F | 31 |
Древнеперсидское письмо [341] | U+103A0 | U+103DF | 50 |
Дезеретское письмо [342] | U+10400 | U+1044F | 80 |
Алфавит Шоу [343] | U+10450 | U+1047F | 48 |
Сомалийское письмо [344] | U+10480 | U+104AF | 40 |
Эльбасанское письмо [345] | U+10500 | U+1052F | 40 |
Агванское письмо [346] | U+10530 | U+1056F | 53 |
Линейное письмо А [347] | U+10600 | U+1077F | 341 |
Кипрское письмо [348] | U+10800 | U+1083F | 55 |
Имперское арамейское письмо [349] | U+10840 | U+1085F | 31 |
Пальмирское письмо [350] | U+10860 | U+1087F | 32 |
Набатейское письмо [351] | U+10880 | U+108AF | 40 |
Хатран [352] | U+108E0 | U+108FF | 26 |
Финикийское письмо [353] | U+10900 | U+1091F | 29 |
Лидийское письмо [354] | U+10920 | U+1093F | 27 |
Мероитские иероглифы [355] | U+10980 | U+1099F | 32 |
Мероитский курсив [356] | U+109A0 | U+109FF | 90 |
Кхароштхи [357] | U+10A00 | U+10A5F | 65 |
Древнее южноаравийское письмо [358] | U+10A60 | U+10A7F | 32 |
Древнее северноаравийское письмо [359] | U+10A80 | U+10A9F | 32 |
Манихейское письмо [360] | U+10AC0 | U+10AFF | 51 |
Авестийское письмо [361] | U+10B00 | U+10B3F | 61 |
Парфянское эпиграфическое письмо [362] | U+10B40 | U+10B5F | 30 |
Пахлевийское эпиграфическое письмо [363] | U+10B60 | U+10B7F | 27 |
Псалтирь пахлеви [364] | U+10B80 | U+10BAF | 29 |
Древнетюркское руническое письмо [365] | U+10C00 | U+10C4F | 73 |
Венгерские руны [366] | U+10C80 | U+10CFF | 108 |
Цифры руми [367] | U+10E60 | U+10E7F | 31 |
Брахми [368] | U+11000 | U+1107F | 109 |
Кайтхи [369] | U+11080 | U+110CF | 66 |
Соранг-сомпенг [370] | U+110D0 | U+110FF | 35 |
Чакма [371] | U+11100 | U+1114F | 67 |
Махаджани [372] | U+11150 | U+1117F | 39 |
Шарада [373] | U+11180 | U+111DF | 94 |
Сингальские архаические цифры [374] | U+111E0 | U+111FF | 20 |
Ходжики [375] | U+11200 | U+1124F | 61 |
Мултани [376] | U+11280 | U+112AF | 38 |
Худабади [377] | U+112B0 | U+112FF | 69 |
Грантха [378] | U+11300 | U+1137F | 85 |
Тирхута [379] | U+11480 | U+114DF | 82 |
Сиддхаматрика [380] | U+11580 | U+115FF | 92 |
Моди [381] | U+11600 | U+1165F | 79 |
Такри [382] | U+11680 | U+116CF | 66 |
Ахом [383] | U+11700 | U+1173F | 57 |
Варанг-кшити [384] | U+118A0 | U+118FF | 84 |
По Чин Хо [385] | U+11AC0 | U+11AFF | 57 |
Клинопись [386] | U+12000 | U+123FF | 922 |
Клинописные цифры и пунктуация [387] | U+12400 | U+1247F | 116 |
Раннединастическая клинопись [388] | U+12480 | U+1254F | 196 |
Египетские иероглифы [389] | U+13000 | U+1342F | 1071 |
Анатолийские иероглифы [390] | U+14400 | U+1467F | 583 |
Дополнение к бамуму [391] | U+16800 | U+16A3F | 569 |
Мро [392] | U+16A40 | U+16A6F | 43 |
Басса [393] | U+16AD0 | U+16AFF | 36 |
Пахау [394] | U+16B00 | U+16B8F | 127 |
Мяо [395] | U+16F00 | U+16F9F | 133 |
Дополнение к кане [396] | U+1B000 | U+1B0FF | 2 |
Стенография Дюплойе [397] | U+1BC00 | U+1BC9F | 143 |
Форматирующие символы стенографии [398] | U+1BCA0 | U+1BCAF | 4 |
Византийские музыкальные символы [399] | U+1D000 | U+1D0FF | 246 |
Музыкальные символы [400] | U+1D100 | U+1D1FF | 231 |
Древнегреческая нотопись [401] | U+1D200 | U+1D24F | 70 |
Символы «Канона великого сокровенного» [402] | U+1D300 | U+1D35F | 87 |
Цифры счётных палочек [403] | U+1D360 | U+1D37F | 18 |
Математические буквы и цифры [404] | U+1D400 | U+1D7FF | 996 |
SignWriting [405] | U+1D800 | U+1DAAF | 672 |
Кикакуи [406] | U+1E800 | U+1E8DF | 213 |
Арабские математические алфавитные символы [407] | U+1EE00 | U+1EEFF | 143 |
Кости для маджонга [408] | U+1F000 | U+1F02F | 44 |
Кости для домино [409] | U+1F030 | U+1F09F | 100 |
Игральные карты [410] | U+1F0A0 | U+1F0FF | 82 |
Дополнение к обрамлённым буквам и цифрам [411] | U+1F100 | U+1F1FF | 173 |
Дополнение к обрамлённым идеографическим символам [412] | U+1F200 | U+1F2FF | 57 |
Разные символы и пиктограммы [413] | U+1F300 | U+1F5FF | 766 |
Эмотиконы [414] | U+1F600 | U+1F64F | 80 |
Орнаментные символы [415] | U+1F650 | U+1F67F | 48 |
Транспортные и картографические символы [416] | U+1F680 | U+1F6FF | 98 |
Алхимические символы [417] | U+1F700 | U+1F77F | 116 |
Расширенные геометрические фигуры [418] | U+1F780 | U+1F7FF | 85 |
Дополнительные стрелки — C [419] | U+1F800 | U+1F8FF | 148 |
Дополнительные символы и пиктограммы [420] | U+1F900 | U+1F9FF | 15 |
Унифицированные идеограммы ККЯ — расширение B [421] | U+20000 | U+2A6DF | 42676 |
Унифицированные идеограммы ККЯ — расширение C [422] | U+2A700 | U+2B73F | 60 |
Унифицированные идеограммы ККЯ — расширение D [423] | U+2B740 | U+2B81F | 27 |
Унифицированные идеограммы ККЯ — расширение E [424] | U+2B820 | U+2CEAF | 2 |
Дополнение к совместимым иероглифам ККЯ [425] | U+2F800 | U+2FA1F | 542 |
Tags [426] | U+E0000 | U+E007F | 97 |
Дополнение к вариантным селекторам [427] | U+E0100 | U+E01EF | 240 |
Дополнительная область для частного использования — A [428] | U+F0000 | U+FFFFF | 4 |
Дополнительная область для частного использования — B [429] | U+100000 | U+10FFFF | 4 |
Стандарт Юникод устанавливает следующие фундаментальные принципы [430]:
Источник: описание принципов c codepoints.net [431].
Автор: m1rko
Источник [445]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/spetsifikatsii/344221
Ссылки в тексте:
[1] список: https://eng.getwisdom.io/awesome-unicode/
[2] Краткое введение: #1
[3] Какие символы входят в Стандарт Юникод?: #2
[4] Кодировки символов Юникода: #3
[5] Поговорим о цифрах: #4
[6] Суррогатные пары UTF-16: #5
[7] Вычисление суррогатных пар: #6
[8] Композиция и декомпозиция: #7
[9] Мифы о Юникоде: #8
[10] Прикладные кодировки Юникода: #9
[11] Исходный код: #10
[12] Список удивительных символов: #11
[13] Специальные символы: #12
[14] Идентификаторы переменных могут включать пробелы!: #13
[15] Модификаторы: #14
[16] Коллизии преобразований в верхнем регистре: #15
[17] Коллизии преобразований в нижнем регистре: #16
[18] Причуды и устранение неполадок: #17
[19] Сопоставления одного ко многим: #18
[20] Отличные пакеты и библиотеки: #19
[21] Эмодзи: #20
[22] Многообразие: #21
[23] Переменные и методы с креативными названиями: #22
[24] Скрипт рекурсивного переименования тегов HTML: #23
[25] Шрифты Юникода: #24
[26] Дополнительные ресурсы: #25
[27] Более глубокое исследование самого Юникода: #26
[28] Общая карта: #27
[29] Карта основной многоязычной плоскости: #28
[30] Блоки Юникода: #29
[31] Принципы Стандарта Юникод: #30
[32] Версии Юникода: #31
[33] Матиас Байненс: https://mathiasbynens.be/notes/javascript-encoding#surrogate-pairs
[34] Unicode 8.0 Глава 3.8 − Суррогаты: https://unicode.org/versions/Unicode8.0.0/ch03.pdf#page=47
[35] порядок декомпозиции: https://unicode.org/versions/Unicode8.0.0/ch03.pdf#page=44
[36] «Мифы Юникода»: https://macchiato.com/slides/UnicodeMyths.pdf
[37] здесь: https://www.unicode.org/roadmaps/
[38] диаграмму общей пунктуации: https://www.unicode.org/charts/PDF/U2000.pdf
[39] поддерживается в рендеринге: https://unicode.org/faq/unsup_char.html
[40] ES Reverser: https://github.com/mathiasbynens/esrever
[41] U+00DF: https://codepoints.net/U+00DF?lang=en
[42] U+0130: https://codepoints.net/U+0130?lang=en
[43] U+0149: https://codepoints.net/U+0149?lang=en
[44] U+01F0: https://codepoints.net/U+01F0?lang=en
[45] U+0390: https://codepoints.net/U+0390?lang=en
[46] U+03B0: https://codepoints.net/U+03B0?lang=en
[47] U+0587: https://codepoints.net/U+0587?lang=en
[48] U+1E96: https://codepoints.net/U+1E96?lang=en
[49] U+1E97: https://codepoints.net/U+1E97?lang=en
[50] U+1E98: https://codepoints.net/U+1E98?lang=en
[51] U+1E99: https://codepoints.net/U+1E99?lang=en
[52] U+1E9A: https://codepoints.net/U+1E9A?lang=en
[53] U+1E9E: https://codepoints.net/U+1E9E?lang=en
[54] U+1F50: https://codepoints.net/U+1F50?lang=en
[55] U+1F52: https://codepoints.net/U+1F52?lang=en
[56] U+1F54: https://codepoints.net/U+1F54?lang=en
[57] U+1F56: https://codepoints.net/U+1F56?lang=en
[58] U+1F80: https://codepoints.net/U+1F80?lang=en
[59] U+1F81: https://codepoints.net/U+1F81?lang=en
[60] U+1F82: https://codepoints.net/U+1F82?lang=en
[61] U+1F83: https://codepoints.net/U+1F83?lang=en
[62] U+1F84: https://codepoints.net/U+1F84?lang=en
[63] U+1F85: https://codepoints.net/U+1F85?lang=en
[64] U+1F86: https://codepoints.net/U+1F86?lang=en
[65] U+1F87: https://codepoints.net/U+1F87?lang=en
[66] U+1F88: https://codepoints.net/U+1F88?lang=en
[67] U+1F89: https://codepoints.net/U+1F89?lang=en
[68] U+1F8A: https://codepoints.net/U+1F8A?lang=en
[69] U+1F8B: https://codepoints.net/U+1F8B?lang=en
[70] U+1F8C: https://codepoints.net/U+1F8C?lang=en
[71] U+1F8D: https://codepoints.net/U+1F8D?lang=en
[72] U+1F8E: https://codepoints.net/U+1F8E?lang=en
[73] U+1F8F: https://codepoints.net/U+1F8F?lang=en
[74] U+1F90: https://codepoints.net/U+1F90?lang=en
[75] U+1F91: https://codepoints.net/U+1F91?lang=en
[76] U+1F92: https://codepoints.net/U+1F92?lang=en
[77] U+1F93: https://codepoints.net/U+1F93?lang=en
[78] U+1F94: https://codepoints.net/U+1F94?lang=en
[79] U+1F95: https://codepoints.net/U+1F95?lang=en
[80] U+1F96: https://codepoints.net/U+1F96?lang=en
[81] U+1F97: https://codepoints.net/U+1F97?lang=en
[82] U+1F98: https://codepoints.net/U+1F98?lang=en
[83] U+1F99: https://codepoints.net/U+1F99?lang=en
[84] U+1F9A: https://codepoints.net/U+1F9A?lang=en
[85] U+1F9B: https://codepoints.net/U+1F9B?lang=en
[86] U+1F9C: https://codepoints.net/U+1F9C?lang=en
[87] U+1F9D: https://codepoints.net/U+1F9D?lang=en
[88] U+1F9E: https://codepoints.net/U+1F9E?lang=en
[89] U+1F9F: https://codepoints.net/U+1F9F?lang=en
[90] U+1FA0: https://codepoints.net/U+1FA0?lang=en
[91] U+1FA1: https://codepoints.net/U+1FA1?lang=en
[92] U+1FA2: https://codepoints.net/U+1FA2?lang=en
[93] U+1FA3: https://codepoints.net/U+1FA3?lang=en
[94] U+1FA4: https://codepoints.net/U+1FA4?lang=en
[95] U+1FA5: https://codepoints.net/U+1FA5?lang=en
[96] U+1FA6: https://codepoints.net/U+1FA6?lang=en
[97] U+1FA7: https://codepoints.net/U+1FA7?lang=en
[98] U+1FA8: https://codepoints.net/U+1FA8?lang=en
[99] U+1FA9: https://codepoints.net/U+1FA9?lang=en
[100] U+1FAA: https://codepoints.net/U+1FAA?lang=en
[101] U+1FAB: https://codepoints.net/U+1FAB?lang=en
[102] U+1FAC: https://codepoints.net/U+1FAC?lang=en
[103] U+1FAD: https://codepoints.net/U+1FAD?lang=en
[104] U+1FAE: https://codepoints.net/U+1FAE?lang=en
[105] U+1FAF: https://codepoints.net/U+1FAF?lang=en
[106] U+1FB2: https://codepoints.net/U+1FB2?lang=en
[107] U+1FB3: https://codepoints.net/U+1FB3?lang=en
[108] U+1FB4: https://codepoints.net/U+1FB4?lang=en
[109] U+1FB6: https://codepoints.net/U+1FB6?lang=en
[110] U+1FB7: https://codepoints.net/U+1FB7?lang=en
[111] U+1FBC: https://codepoints.net/U+1FBC?lang=en
[112] U+1FC2: https://codepoints.net/U+1FC2?lang=en
[113] U+1FC3: https://codepoints.net/U+1FC3?lang=en
[114] U+1FC4: https://codepoints.net/U+1FC4?lang=en
[115] U+1FC6: https://codepoints.net/U+1FC6?lang=en
[116] U+1FC7: https://codepoints.net/U+1FC7?lang=en
[117] U+1FCC: https://codepoints.net/U+1FCC?lang=en
[118] U+1FD2: https://codepoints.net/U+1FD2?lang=en
[119] U+1FD3: https://codepoints.net/U+1FD3?lang=en
[120] U+1FD6: https://codepoints.net/U+1FD6?lang=en
[121] U+1FD7: https://codepoints.net/U+1FD7?lang=en
[122] U+1FE2: https://codepoints.net/U+1FE2?lang=en
[123] U+1FE3: https://codepoints.net/U+1FE3?lang=en
[124] U+1FE4: https://codepoints.net/U+1FE4?lang=en
[125] U+1FE6: https://codepoints.net/U+1FE6?lang=en
[126] U+1FE7: https://codepoints.net/U+1FE7?lang=en
[127] U+1FF2: https://codepoints.net/U+1FF2?lang=en
[128] U+1FF3: https://codepoints.net/U+1FF3?lang=en
[129] U+1FF4: https://codepoints.net/U+1FF4?lang=en
[130] U+1FF6: https://codepoints.net/U+1FF6?lang=en
[131] U+1FF7: https://codepoints.net/U+1FF7?lang=en
[132] U+1FFC: https://codepoints.net/U+1FFC?lang=en
[133] U+FB00: https://codepoints.net/U+FB00?lang=en
[134] U+FB01: https://codepoints.net/U+FB01?lang=en
[135] U+FB02: https://codepoints.net/U+FB02?lang=en
[136] U+FB03: https://codepoints.net/U+FB03?lang=en
[137] U+FB04: https://codepoints.net/U+FB04?lang=en
[138] U+FB05: https://codepoints.net/U+FB05?lang=en
[139] U+FB06: https://codepoints.net/U+FB06?lang=en
[140] U+FB13: https://codepoints.net/U+FB13?lang=en
[141] U+FB14: https://codepoints.net/U+FB14?lang=en
[142] U+FB15: https://codepoints.net/U+FB15?lang=en
[143] U+FB16: https://codepoints.net/U+FB16?lang=en
[144] U+FB17: https://codepoints.net/U+FB17?lang=en
[145] PhantomScript: https://github.com/jagracey/PhantomScript
[146] mimic: https://github.com/reinderien/mimic
[147] python-ftfy: https://github.com/LuminosoInsight/python-ftfy
[148] vim-troll-stopper: https://github.com/vim-utils/vim-troll-stopper
[149] Диаграмма эмодзи от Консорциума Юникод: https://www.unicode.org/emoji/charts/full-emoji-list.html
[150] Emojipedia: https://emojipedia.org/
[151] emojitracker: https://emojitracker.com/
[152] World Translation Foundation: https://www.emojifoundation.com/
[153] Can I Emoji?: https://caniemoji.com/android-2/
[154] Как зарегистрировать доменное имя с эмодзи: https://www.name.com/blog/how-tos/2015/12/want-an-emoji-url-this-is-how-you-register-one/
[155] отчёт: https://unicode.org/reports/tr51/#Diversity
[156] составные последовательности эмодзи: https://www.unicode.org/emoji/charts/emoji-zwj-sequences.html
[157] ID_START: https://codepoints.net/search?IDS=1
[158] ID_CONTINUE: https://codepoints.net/search?IDC=1
[159] юникодовские классы CSS: https://davidwalsh.name/unicode-css-classes
[160] https://en.wikipedia.org/wiki/Unicode_font#List_of_Unicode_fonts: https://en.wikipedia.org/wiki/Unicode_font#List_of_Unicode_fonts
[161] https://www.unifont.org/fontguide/: https://www.unifont.org/fontguide/
[162] «Абсолютный минимум, который каждый разработчик должен обязательно, совершенно точно знать о Юникоде и наборах символов»: https://www.joelonsoftware.com/articles/Unicode.html
[163] «Что каждый программист обязательно, совершенно точно должен знать о кодировках и наборах символов для работы с текстом»: https://kunststube.net/encoding/
[164] Список рекомендованной литературы от Консорциума Юникод: https://www.unicode.org/resources/readinglist.html
[165] Space Yourself: https://www.smashingmagazine.com/2015/10/space-yourself/
[166] «У JavaScript проблема Юникода»: https://mathiasbynens.be/notes/javascript-unicode
[167] Креативные юзернеймы и захват учётной записи Spotify: https://labs.spotify.com/2013/06/18/creative-usernames/
[168] Основная латиница: https://wikipedia.org/wiki/Basic_Latin
[169] Дополнение к латинице — 1: https://wikipedia.org/wiki/Latin-1_Supplement
[170] Расширенная латиница — A: https://wikipedia.org/wiki/Latin_Extended-A
[171] Расширенная латиница — B: https://wikipedia.org/wiki/Latin_Extended-B
[172] Расширения МФА: https://wikipedia.org/wiki/IPA_Extensions
[173] Модификаторы букв: https://wikipedia.org/wiki/Spacing_Modifier_Letters
[174] Комбинируемые диакритические знаки: https://wikipedia.org/wiki/Combining_Diacritical_Marks
[175] Греческое и коптское письмо: https://wikipedia.org/wiki/Greek_and_Coptic
[176] Кириллица: https://wikipedia.org/wiki/Cyrillic
[177] Дополнение к кириллице: https://wikipedia.org/wiki/Cyrillic_Supplement
[178] Армянское письмо: https://wikipedia.org/wiki/Armenian
[179] Еврейское письмо: https://wikipedia.org/wiki/Hebrew
[180] Арабское письмо: https://wikipedia.org/wiki/Arabic
[181] Сирийское письмо: https://wikipedia.org/wiki/Syriac
[182] Дополнение к арабскому письму: https://wikipedia.org/wiki/Arabic_Supplement
[183] Тана: https://wikipedia.org/wiki/Thaana
[184] Нко: https://wikipedia.org/wiki/NKo
[185] Самаритянское письмо: https://wikipedia.org/wiki/Samaritan
[186] Мандейское письмо: https://wikipedia.org/wiki/Mandaic
[187] Расширенное арабское письмо — A: https://wikipedia.org/wiki/Arabic_Extended-A
[188] Девангари: https://wikipedia.org/wiki/Devanagari
[189] Бенгальское письмо: https://wikipedia.org/wiki/Bengali
[190] Гурмукхи: https://wikipedia.org/wiki/Gurmukhi
[191] Гуджарати: https://wikipedia.org/wiki/Gujarati
[192] Ория: https://wikipedia.org/wiki/Oriya
[193] Тамильское письмо: https://wikipedia.org/wiki/Tamil
[194] Телугу: https://wikipedia.org/wiki/Telugu
[195] Каннада: https://wikipedia.org/wiki/Kannada
[196] Малаялам: https://wikipedia.org/wiki/Malayalam
[197] Сингальское письмо: https://wikipedia.org/wiki/Sinhala
[198] Тайское письмо: https://wikipedia.org/wiki/Thai
[199] Лаосское письмо: https://wikipedia.org/wiki/Lao
[200] Тибетское письмо: https://wikipedia.org/wiki/Tibetan
[201] Бирманское письмо: https://wikipedia.org/wiki/Myanmar
[202] Грузинское письмо: https://wikipedia.org/wiki/Georgian
[203] Элементы хангыля: https://wikipedia.org/wiki/Hangul_Jamo
[204] Эфиопское письмо: https://wikipedia.org/wiki/Ethiopic
[205] Дополнение к эфиопскому письму: https://wikipedia.org/wiki/Ethiopic_Supplement
[206] Чероки: https://wikipedia.org/wiki/Cherokee
[207] Канадское слоговое письмо: https://wikipedia.org/wiki/Unified_Canadian_Aboriginal_Syllabics
[208] Огамическое письмо: https://wikipedia.org/wiki/Ogham
[209] Руны: https://wikipedia.org/wiki/Runic
[210] Байбайин: https://wikipedia.org/wiki/Tagalog
[211] Хануноо: https://wikipedia.org/wiki/Hanunoo
[212] Бухид: https://wikipedia.org/wiki/Buhid
[213] Тагбанва: https://wikipedia.org/wiki/Tagbanwa
[214] Кхмерское письмо: https://wikipedia.org/wiki/Khmer
[215] Старомонгольское письмо: https://wikipedia.org/wiki/Mongolian
[216] Расширенное канадское слоговое письмо: https://wikipedia.org/wiki/Unified_Canadian_Aboriginal_Syllabics_Extended
[217] Лимбу: https://wikipedia.org/wiki/Limbu
[218] Лы: https://wikipedia.org/wiki/Tai_Le
[219] Ныа: https://wikipedia.org/wiki/New_Tai_Lue
[220] Кхмерские символы: https://wikipedia.org/wiki/Khmer_Symbols
[221] Лонтара: https://wikipedia.org/wiki/Buginese
[222] Ланна: https://wikipedia.org/wiki/Tai_Tham
[223] Расширенные комбинируемые диакритические знаки: https://wikipedia.org/wiki/Combining_Diacritical_Marks_Extended
[224] Балийское письмо: https://wikipedia.org/wiki/Balinese
[225] Сунданское письмо: https://wikipedia.org/wiki/Sundanese
[226] Батакское письмо: https://wikipedia.org/wiki/Batak
[227] Лепча: https://wikipedia.org/wiki/Lepcha
[228] Ол-чики: https://wikipedia.org/wiki/Ol_Chiki
[229] Дополнение к сунданскому письму: https://wikipedia.org/wiki/Sundanese_Supplement
[230] Расширения Веды: https://wikipedia.org/wiki/Vedic_Extensions
[231] Фонетические расширения: https://wikipedia.org/wiki/Phonetic_Extensions
[232] Дополнение к фонетическим расширениям: https://wikipedia.org/wiki/Phonetic_Extensions_Supplement
[233] U+1DFF Дополнение к комбинируемым диакритическим знакам: https://wikipedia.org/wiki/Combining_Diacritical_Marks_Supplement
[234] Дополнительная расширенная латиница: https://wikipedia.org/wiki/Latin_Extended_Additional
[235] Расширенное греческое письмо: https://wikipedia.org/wiki/Greek_Extended
[236] Основная пунктуация: https://wikipedia.org/wiki/General_Punctuation
[237] Надстрочные и подстрочные знаки: https://wikipedia.org/wiki/Superscripts_and_Subscripts
[238] Знаки валют: https://wikipedia.org/wiki/Currency_Symbols
[239] Комбинируемые диакритические знаки для символов: https://wikipedia.org/wiki/Combining_Diacritical_Marks_for_Symbols
[240] Буквоподобные символы: https://wikipedia.org/wiki/Letterlike_Symbols
[241] Числовые формы: https://wikipedia.org/wiki/Number_Forms
[242] Стрелки: https://wikipedia.org/wiki/Arrows
[243] Математические операторы: https://wikipedia.org/wiki/Mathematical_Operators
[244] Разные технические знаки: https://wikipedia.org/wiki/Miscellaneous_Technical
[245] Пиктограммы управляющих символов: https://wikipedia.org/wiki/Control_Pictures
[246] Оптическое распознавание символов: https://wikipedia.org/wiki/Optical_Character_Recognition
[247] Обрамлённые буквы и цифры: https://wikipedia.org/wiki/Enclosed_Alphanumerics
[248] Псевдографика: https://wikipedia.org/wiki/Box_Drawing
[249] Блочные элементы: https://wikipedia.org/wiki/Block_Elements
[250] Геометрические фигуры: https://wikipedia.org/wiki/Geometric_Shapes
[251] Разные символы: https://wikipedia.org/wiki/Miscellaneous_Symbols
[252] Dingbats: https://wikipedia.org/wiki/Dingbats
[253] Разные математические символы — A: https://wikipedia.org/wiki/Miscellaneous_Mathematical_Symbols-A
[254] Дополнительные стрелки — A: https://wikipedia.org/wiki/Supplemental_Arrows-A
[255] Шрифт Брайля: https://wikipedia.org/wiki/Braille_Patterns
[256] Дополнительные стрелки — B: https://wikipedia.org/wiki/Supplemental_Arrows-B
[257] Разные математические символы — B: https://wikipedia.org/wiki/Miscellaneous_Mathematical_Symbols-B
[258] Дополнительные математические операторы: https://wikipedia.org/wiki/Supplemental_Mathematical_Operators
[259] Разные символы и стрелки: https://wikipedia.org/wiki/Miscellaneous_Symbols_and_Arrows
[260] Глаголица: https://wikipedia.org/wiki/Glagolitic
[261] Расширенная латиница — C: https://wikipedia.org/wiki/Latin_Extended-C
[262] Коптское письмо: https://wikipedia.org/wiki/Coptic
[263] Дополнение к грузинскому письму: https://wikipedia.org/wiki/Georgian_Supplement
[264] Древнеливийское письмо: https://wikipedia.org/wiki/Tifinagh
[265] Расширенное эфиопское письмо: https://wikipedia.org/wiki/Ethiopic_Extended
[266] Расширенная кириллица — A: https://wikipedia.org/wiki/Cyrillic_Extended-A
[267] Дополнительная пунктуация: https://wikipedia.org/wiki/Supplemental_Punctuation
[268] Дополнение к ключам ККЯ: https://wikipedia.org/wiki/CJK_Radicals_Supplement
[269] Ключи Канси: https://wikipedia.org/wiki/Kangxi_Radicals
[270] Идеографические пояснительные символы: https://wikipedia.org/wiki/Ideographic_Description_Characters
[271] Символы и пунктуация ККЯ: https://wikipedia.org/wiki/CJK_Symbols_and_Punctuation
[272] Хирагана: https://wikipedia.org/wiki/Hiragana
[273] Катакана: https://wikipedia.org/wiki/Katakana
[274] Чжуинь фухао: https://wikipedia.org/wiki/Bopomofo
[275] Совместимые элементы хангыля: https://wikipedia.org/wiki/Hangul_Compatibility_Jamo
[276] Камбун: https://wikipedia.org/wiki/Kanbun
[277] Расширенное чжуинь фухао: https://wikipedia.org/wiki/Bopomofo_Extended
[278] Черты ККЯ: https://wikipedia.org/wiki/CJK_Strokes
[279] Фонетические расширения катаканы: https://wikipedia.org/wiki/Katakana_Phonetic_Extensions
[280] Обрамлённые буквы и месяцы ККЯ: https://wikipedia.org/wiki/Enclosed_CJK_Letters_and_Months
[281] Совместимые элементы ККЯ: https://wikipedia.org/wiki/CJK_Compatibility
[282] Унифицированные идеограммы ККЯ — расширение A: https://wikipedia.org/wiki/CJK_Unified_Ideographs_Extension_A
[283] Гексаграммы «Книги Перемен»: https://wikipedia.org/wiki/Yijing_Hexagram_Symbols
[284] Унифицированные идеограммы ККЯ: https://wikipedia.org/wiki/CJK_Unified_Ideographs
[285] Слоговое письмо и: https://wikipedia.org/wiki/Yi_Syllables
[286] Ключи письма и: https://wikipedia.org/wiki/Yi_Radicals
[287] Лису: https://wikipedia.org/wiki/Lisu
[288] Ваи: https://wikipedia.org/wiki/Vai
[289] Расширенная кириллица — B: https://wikipedia.org/wiki/Cyrillic_Extended-B
[290] Бамум: https://wikipedia.org/wiki/Bamum
[291] Символы изменения тона: https://wikipedia.org/wiki/Modifier_Tone_Letters
[292] Расширенная латиница — D: https://wikipedia.org/wiki/Latin_Extended-D
[293] Силхетское нагари: https://wikipedia.org/wiki/Syloti_Nagri
[294] Общеиндийские числовые формы: https://wikipedia.org/wiki/Common_Indic_Number_Forms
[295] Монгольское квадратное письмо: https://wikipedia.org/wiki/Phags-pa
[296] Саураштра: https://wikipedia.org/wiki/Saurashtra
[297] Расширенное деванагари: https://wikipedia.org/wiki/Devanagari_Extended
[298] Кая-ли: https://wikipedia.org/wiki/Kayah_Li
[299] Реджанг: https://wikipedia.org/wiki/Rejang
[300] Расширенные элементы хангыля — A: https://wikipedia.org/wiki/Hangul_Jamo_Extended-A
[301] Яванское письмо: https://wikipedia.org/wiki/Javanese
[302] Расширенное бирманское письмо — B: https://wikipedia.org/wiki/Myanmar_Extended-B
[303] Чамское письмо: https://wikipedia.org/wiki/Cham
[304] Расширенное бирманское письмо — A: https://wikipedia.org/wiki/Myanmar_Extended-A
[305] Тай-вьет: https://wikipedia.org/wiki/Tai_Viet
[306] Расширения манипури: https://wikipedia.org/wiki/Meetei_Mayek_Extensions
[307] Расширенное эфиопское письмо — A: https://wikipedia.org/wiki/Ethiopic_Extended-A
[308] Расширенная латиница — E: https://wikipedia.org/wiki/Latin_Extended-E
[309] Дополнение к чероки: https://wikipedia.org/wiki/Cherokee_Supplement
[310] Манипури: https://wikipedia.org/wiki/Meetei_Mayek
[311] Слоговое письмо хангыля: https://wikipedia.org/wiki/Hangul_Syllables
[312] Расширенные элементы хангыля — B: https://wikipedia.org/wiki/Hangul_Jamo_Extended-B
[313] Верхняя часть суррогатных пар: https://wikipedia.org/wiki/High_Surrogates
[314] Верхняя часть суррогатных пар для частного использования: https://wikipedia.org/wiki/High_Private_Use_Surrogates
[315] Нижняя часть суррогатных пар: https://wikipedia.org/wiki/Low_Surrogates
[316] Область для частного использования: https://wikipedia.org/wiki/Private_Use_Area
[317] Совместимые идеограммы ККЯ: https://wikipedia.org/wiki/CJK_Compatibility_Ideographs
[318] Алфавитные формы представления: https://wikipedia.org/wiki/Alphabetic_Presentation_Forms
[319] Арабские формы представления — A: https://wikipedia.org/wiki/Arabic_Presentation_Forms-A
[320] Вариантные селекторы: https://wikipedia.org/wiki/Variation_Selectors
[321] Вертикальные формы: https://wikipedia.org/wiki/Vertical_Forms
[322] Комбинируемые полузнаки: https://wikipedia.org/wiki/Combining_Half_Marks
[323] Совместимые формы ККЯ: https://wikipedia.org/wiki/CJK_Compatibility_Forms
[324] Малые вариантные формы: https://wikipedia.org/wiki/Small_Form_Variants
[325] Арабские формы представления — B: https://wikipedia.org/wiki/Arabic_Presentation_Forms-B
[326] Полуширинные и полноширинные формы: https://wikipedia.org/wiki/Halfwidth_and_Fullwidth_Forms
[327] Специальные символы: https://wikipedia.org/wiki/Specials
[328] Слоги линейного письма Б: https://wikipedia.org/wiki/Linear_B_Syllabary
[329] Идеограммы линейного письма Б: https://wikipedia.org/wiki/Linear_B_Ideograms
[330] Эгейские цифры: https://wikipedia.org/wiki/Aegean_Numbers
[331] Древнегреческие цифры: https://wikipedia.org/wiki/Ancient_Greek_Numbers
[332] Древние символы: https://wikipedia.org/wiki/Ancient_Symbols
[333] Фестский диск: https://wikipedia.org/wiki/Phaistos_Disc
[334] Ликийское письмо: https://wikipedia.org/wiki/Lycian
[335] Карийское письмо: https://wikipedia.org/wiki/Carian
[336] Коптские цифры епакты: https://wikipedia.org/wiki/Coptic_Epact_Numbers
[337] Древнеиталийское письмо: https://wikipedia.org/wiki/Old_Italic
[338] Готское письмо: https://wikipedia.org/wiki/Gothic
[339] Древнепермское письмо: https://wikipedia.org/wiki/Old_Permic
[340] Угаритское письмо: https://wikipedia.org/wiki/Ugaritic
[341] Древнеперсидское письмо: https://wikipedia.org/wiki/Old_Persian
[342] Дезеретское письмо: https://wikipedia.org/wiki/Deseret
[343] Алфавит Шоу: https://wikipedia.org/wiki/Shavian
[344] Сомалийское письмо: https://wikipedia.org/wiki/Osmanya
[345] Эльбасанское письмо: https://wikipedia.org/wiki/Elbasan
[346] Агванское письмо: https://wikipedia.org/wiki/Caucasian_Albanian
[347] Линейное письмо А: https://wikipedia.org/wiki/Linear_A
[348] Кипрское письмо: https://wikipedia.org/wiki/Cypriot_Syllabary
[349] Имперское арамейское письмо: https://wikipedia.org/wiki/Imperial_Aramaic
[350] Пальмирское письмо: https://wikipedia.org/wiki/Palmyrene
[351] Набатейское письмо: https://wikipedia.org/wiki/Nabataean
[352] Хатран: https://wikipedia.org/wiki/Hatran
[353] Финикийское письмо: https://wikipedia.org/wiki/Phoenician
[354] Лидийское письмо: https://wikipedia.org/wiki/Lydian
[355] Мероитские иероглифы: https://wikipedia.org/wiki/Meroitic_Hieroglyphs
[356] Мероитский курсив: https://wikipedia.org/wiki/Meroitic_Cursive
[357] Кхароштхи: https://wikipedia.org/wiki/Kharoshthi
[358] Древнее южноаравийское письмо: https://wikipedia.org/wiki/Old_South_Arabian
[359] Древнее северноаравийское письмо: https://wikipedia.org/wiki/Old_North_Arabian
[360] Манихейское письмо: https://wikipedia.org/wiki/Manichaean
[361] Авестийское письмо: https://wikipedia.org/wiki/Avestan
[362] Парфянское эпиграфическое письмо: https://wikipedia.org/wiki/Inscriptional_Parthian
[363] Пахлевийское эпиграфическое письмо: https://wikipedia.org/wiki/Inscriptional_Pahlavi
[364] Псалтирь пахлеви: https://wikipedia.org/wiki/Psalter_Pahlavi
[365] Древнетюркское руническое письмо: https://wikipedia.org/wiki/Old_Turkic
[366] Венгерские руны: https://wikipedia.org/wiki/Old_Hungarian
[367] Цифры руми: https://wikipedia.org/wiki/Rumi_Numeral_Symbols
[368] Брахми: https://wikipedia.org/wiki/Brahmi
[369] Кайтхи: https://wikipedia.org/wiki/Kaithi
[370] Соранг-сомпенг: https://wikipedia.org/wiki/Sora_Sompeng
[371] Чакма: https://wikipedia.org/wiki/Chakma
[372] Махаджани: https://wikipedia.org/wiki/Mahajani
[373] Шарада: https://wikipedia.org/wiki/Sharada
[374] Сингальские архаические цифры: https://wikipedia.org/wiki/Sinhala_Archaic_Numbers
[375] Ходжики: https://wikipedia.org/wiki/Khojki
[376] Мултани: https://wikipedia.org/wiki/Multani
[377] Худабади: https://wikipedia.org/wiki/Khudawadi
[378] Грантха: https://wikipedia.org/wiki/Grantha
[379] Тирхута: https://wikipedia.org/wiki/Tirhuta
[380] Сиддхаматрика: https://wikipedia.org/wiki/Siddham
[381] Моди: https://wikipedia.org/wiki/Modi
[382] Такри: https://wikipedia.org/wiki/Takri
[383] Ахом: https://wikipedia.org/wiki/Ahom
[384] Варанг-кшити: https://wikipedia.org/wiki/Warang_Citi
[385] По Чин Хо: https://wikipedia.org/wiki/Pau_Cin_Hau
[386] Клинопись: https://wikipedia.org/wiki/Cuneiform
[387] Клинописные цифры и пунктуация: https://wikipedia.org/wiki/Cuneiform_Numbers_and_Punctuation
[388] Раннединастическая клинопись: https://wikipedia.org/wiki/Early_Dynastic_Cuneiform
[389] Египетские иероглифы: https://wikipedia.org/wiki/Egyptian_Hieroglyphs
[390] Анатолийские иероглифы: https://wikipedia.org/wiki/Anatolian_Hieroglyphs
[391] Дополнение к бамуму: https://wikipedia.org/wiki/Bamum_Supplement
[392] Мро: https://wikipedia.org/wiki/Mro
[393] Басса: https://wikipedia.org/wiki/Bassa_Vah
[394] Пахау: https://wikipedia.org/wiki/Pahawh_Hmong
[395] Мяо: https://wikipedia.org/wiki/Miao
[396] Дополнение к кане: https://wikipedia.org/wiki/Kana_Supplement
[397] Стенография Дюплойе: https://wikipedia.org/wiki/Duployan
[398] Форматирующие символы стенографии: https://wikipedia.org/wiki/Shorthand_Format_Controls
[399] Византийские музыкальные символы: https://wikipedia.org/wiki/Byzantine_Musical_Symbols
[400] Музыкальные символы: https://wikipedia.org/wiki/Musical_Symbols
[401] Древнегреческая нотопись: https://wikipedia.org/wiki/Ancient_Greek_Musical_Notation
[402] Символы «Канона великого сокровенного»: https://wikipedia.org/wiki/Tai_Xuan_Jing_Symbols
[403] Цифры счётных палочек: https://wikipedia.org/wiki/Counting_Rod_Numerals
[404] Математические буквы и цифры: https://wikipedia.org/wiki/Mathematical_Alphanumeric_Symbols
[405] SignWriting: https://wikipedia.org/wiki/Sutton_SignWriting
[406] Кикакуи: https://wikipedia.org/wiki/Mende_Kikakui
[407] Арабские математические алфавитные символы: https://wikipedia.org/wiki/Arabic_Mathematical_Alphabetic_Symbols
[408] Кости для маджонга: https://wikipedia.org/wiki/Mahjong_Tiles
[409] Кости для домино: https://wikipedia.org/wiki/Domino_Tiles
[410] Игральные карты: https://wikipedia.org/wiki/Playing_Cards
[411] Дополнение к обрамлённым буквам и цифрам: https://wikipedia.org/wiki/Enclosed_Alphanumeric_Supplement
[412] Дополнение к обрамлённым идеографическим символам: https://wikipedia.org/wiki/Enclosed_Ideographic_Supplement
[413] Разные символы и пиктограммы: https://wikipedia.org/wiki/Miscellaneous_Symbols_and_Pictographs
[414] Эмотиконы: https://wikipedia.org/wiki/Emoticons
[415] Орнаментные символы: https://wikipedia.org/wiki/Ornamental_Dingbats
[416] Транспортные и картографические символы: https://wikipedia.org/wiki/Transport_and_Map_Symbols
[417] Алхимические символы: https://wikipedia.org/wiki/Alchemical_Symbols
[418] Расширенные геометрические фигуры: https://wikipedia.org/wiki/Geometric_Shapes_Extended
[419] Дополнительные стрелки — C: https://wikipedia.org/wiki/Supplemental_Arrows-C
[420] Дополнительные символы и пиктограммы: https://wikipedia.org/wiki/Supplemental_Symbols_and_Pictographs
[421] Унифицированные идеограммы ККЯ — расширение B: https://wikipedia.org/wiki/CJK_Unified_Ideographs_Extension_B
[422] Унифицированные идеограммы ККЯ — расширение C: https://wikipedia.org/wiki/CJK_Unified_Ideographs_Extension_C
[423] Унифицированные идеограммы ККЯ — расширение D: https://wikipedia.org/wiki/CJK_Unified_Ideographs_Extension_D
[424] Унифицированные идеограммы ККЯ — расширение E: https://wikipedia.org/wiki/CJK_Unified_Ideographs_Extension_E
[425] Дополнение к совместимым иероглифам ККЯ: https://wikipedia.org/wiki/CJK_Compatibility_Ideographs_Supplement
[426] Tags: https://wikipedia.org/wiki/Tags
[427] Дополнение к вариантным селекторам: https://wikipedia.org/wiki/Variation_Selectors_Supplement
[428] Дополнительная область для частного использования — A: https://wikipedia.org/wiki/Supplementary_Private_Use_Area-A
[429] Дополнительная область для частного использования — B: https://wikipedia.org/wiki/Supplementary_Private_Use_Area-B
[430] принципы: https://www.unicode.org/standard/principles.html
[431] codepoints.net: https://codepoints.net/about#unicode
[432] Версия 11.0: https://www.unicode.org/versions/Unicode11.0.0/
[433] Версия 10.0: https://www.unicode.org/versions/Unicode10.0.0/
[434] Версия 9.0: https://www.unicode.org/versions/Unicode9.0.0/
[435] Версия 8.0: https://www.unicode.org/versions/Unicode8.0.0/
[436] Версия 7.0: https://www.unicode.org/versions/Unicode7.0.0/
[437] Версия 6.3: https://www.unicode.org/versions/Unicode6.3.0/
[438] Версия 6.2: https://www.unicode.org/versions/Unicode6.2.0/
[439] Версия 6.1: https://www.unicode.org/versions/Unicode6.1.0/
[440] Версия 6.0: https://www.unicode.org/versions/Unicode6.0.0/
[441] Версия 5.2: https://www.unicode.org/versions/Unicode5.2.0/
[442] Версия 5.1: https://www.unicode.org/versions/Unicode5.1.0/
[443] Версия 4.0.1: https://www.unicode.org/versions/Unicode4.0.1/
[444] Версия 4.0: https://www.unicode.org/versions/corrigendum5.html
[445] Источник: https://habr.com/ru/post/485148/?utm_source=habrahabr&utm_medium=rss&utm_campaign=485148
Нажмите здесь для печати.