Рубрика «Unicode»

Как же прекрасна структура UTF-8

2025-09-21 в 9:01, admin, рубрики: ASCII, ruvds_перевод, Unicode, utf-8, кодировки символов

Когда я впервые узнал о кодировке UTF-8, то был поражён её продуманностью и структурой. Тем, как изящно её авторам удалось выразить миллионы символов разных языков и письменностей, параллельно сохранив обратную совместимость с ASCII.

Читать полностью »

DSL KeyPad — ввод более 4 700 символов Юникода прямо с клавиатуры

2025-07-30 в 21:55, admin, рубрики: autohotkey, qwerty, Unicode, йцукен, клавиатура, набор текста, раскладка клавиатуры, типографика, Юникод, языки

Содержание
• Краткий экскурс
• Краткий перечень возможностей
• Подробнее об основных возможностях
⁃ Многослойные привязки
⁃ Режим композиции
Читать полностью »

Контрабанда данных внутри эмодзи

2025-02-17 в 16:23, admin, рубрики: Unicode, водяные знаки, кодировки текста, кодовые точки, Стеганография

Меня заинтриговал комментарий GuB-42 на Hacker News:

При помощи последовательностей ZWJ (Zero Width Joiner) теоретически можно закодировать в один эмодзи неограниченный объём данных.

Действительно ли можно закодировать в один эмодзи произвольные данные?

tl;dr: да, однако я нашёл решение и без ZWJ. На самом деле, можно закодировать данные в любой символ Unicode. Например, в этом предложении есть скрытое послание: This sentence has a hidden message󠅟󠅘󠄐󠅝󠅩󠄜󠄐󠅩󠅟󠅥󠄐󠅖󠅟󠅥󠅞󠅔󠄐󠅤󠅘󠅕󠄐󠅘󠅙󠅔󠅔󠅕󠅞󠄐󠅝󠅕󠅣󠅣󠅑󠅗󠅕󠄐󠅙󠅞󠄐󠅤󠅘󠅕󠄐󠅤󠅕󠅨󠅤󠄑. (Попробуйте вставить его в Читать полностью »

Как сделать ёлку, если ты Unicode

2024-12-31 в 17:50, admin, рубрики: Unicode, ёлка, музыка, Новый Год

Поздравляю Хабр и Хаброжителей с Новым 2025 годом! Несколькими годами ранее я писал о том, как сделать ёлку из функций, в этот раз сказ пойдёт о ёлке из Uтicode символов. Ограничение - должна быть музыка, а результат должен помещаться в QR код.

Идея и ограничения

Современные браузеры поддерживают dataUrl Читать полностью »

Когда есть разница регистров, но это не верхний и не нижний регистры?

2024-11-07 в 11:24, admin, рубрики: lowercase, title case, Unicode, uppercase, верхний регистр, нижний регистр

Если вы начнёте изучать стандарт Unicode, то, к своему удивлению, можете обнаружить некоторые символы, имеющие различия в регистре, при этом они сами по себе ни в верхнем, ни в нижнем регистре.

У-у-у-у, загадочно и пугающе.

Иными словами, это символ c, обладающий следующими свойствами:

toUpper(c) ≠ toLower(cЧитать полностью »

Красота и изящество таблицы ASCII

2024-07-24 в 13:00, admin, рубрики: ASCII, ruvds_переводы, Unicode, кодировки текста, пишущие машинки, стандарты, телетайп

Если вы программист или хотя бы немного связаны с программированием¹, то без сомнения сталкивались с таблицей ASCII.

Таблица ASCII полезна. Но знали ли вы, что она ещё красива и изящна?

Сегодня даже не близкие к программированию люди могут знать об ASCII благодаря книгам и фильмам наподобие «Марсианина»²

ASCII по-прежнему с нами; даже если вы передаёте современный Unicode³, то должны знать, что самый популярный формат кодировки UTF-8 специально спроектирован как обратно совместимый с ASCII! Декодировав эту статью как ASCII, вы в целом поймёте её смысл… если закроете глаза на мусорные символы в конце предложений (прим. ред.: имеет смысл только для оригинальной статьи на английском).Читать полностью »

Нельзя предполагать, что все используют UTF-8

2024-05-02 в 13:00, admin, рубрики: koi8, ruvds_переводы, Unicode, utf-16, utf-8, win-1252, кодировки текста, определение кодировок

Как вычислять кодировку при помощи статистики

Люди говорят на бесчисленном количестве разных языков. Эти языки не только несовместимы между собой, но и представляют огромную трудность при транспиляции в среде исполнения. К сожалению, все попытки стандартизации провалились.

По крайней мере, в таком положении вещей есть, кого винить: Бога. Ведь именно он вынудил человечество говорить на разных языках из-за древнего спора о строительстве объекта недвижимости.

Однако человечество может винить себя за то, что сложности в общении испытывают компьютеры.

И одна из самых больших проблем одновременно является самой простой: компьютеры не договорились о том, как записывать буквы двоичным кодом.
Читать полностью »

Важные аспекты Unicode, о которых должен знать каждый разработчик JavaScript

2024-01-23 в 8:01, admin, рубрики: javascript, timeweb_статьи_перевод, Unicode, utf-16, utf-8, web-разработка, webdevelopment, Юникод

Должен признаться: на протяжении очень долгого времени я испытывал страх перед Unicode. Когда была необходимость в работе с Unicode, я предпочитал искать альтернативные пути решения, поскольку не совсем понимал, что делаю.

Я старался избегать работы с Unicode до тех пор, пока не столкнулся с проблемой, требующей глубокого понимания этого стандарта, а других вариантов решения просто не было.

Приложив определенные усилия, прочитав кучу статей — я постепенно начал понимать что к чему, и это оказалось не так уж трудно. Хотя, некоторые статьи приходилось перечитывать раза по 3.

Как оказалось, Unicode — это универсальный и удобный стандарт, но работать с ним может быть непросто из-за множества абстрактных терминов.

Если у вас есть пробелы в понимании Unicode, то сейчас самое подходящее время их заполнить! Заварите себе вкусный чай или кофе ☕. И давайте погрузимся в удивительный мир абстракций, символов, астралов (astrals) и суррогатов (surrogates).

В этой статье объясняются основные концепции Unicode, которые создадут необходимую базу для работы с ним.

Вы также узнаете, как JavaScript взаимодействует с Unicode и какие трудности могут возникнуть на этом пути.

А также, каким образом новые функции из ECMAScript 2015 могут помочь в решении этих проблем.

Готовы? Давайте начнем!

Читать полностью »

Абсолютный минимум об Unicode на 2023 год (всё ещё — никаких оправданий!)

2023-12-04 в 8:11, admin, рубрики: Unicode

Двадцать лет назад Джоэл Спольски написал:

Не существует такой штуки, как «обычный текст».

Читать полностью »

1. Введение в Unicode (опять?)

2023-07-31 в 22:00, admin, рубрики: IT-стандарты, Rust, Unicode, utf-16, UTF-32, utf-8, валидация, Программирование

Всем здравствуйте, меня зовут Антон, и этой статьей я открываю новый цикл публикаций про Unicode. Сразу может возникнуть вопрос — зачем? Их же и так море?

На Хабре, как и вообще в русскоязычном сегменте Интернета, в основном можно найти обзорные статьи, дающие лишь общее представление о Юникоде, но о том, как с ним работать — информации крайне мало. Сами же его разработчики, Unicode Consortium, предоставляют довольно подробную… но очень объемную документацию Читать полностью »

Информация

Комментарии

Рекомендуем