Рубрика «Юникод»

Как музыканты издеваются над программистами

2025-10-29 в 7:05, admin, рубрики: edge cases, базы данных, костыли в коде, метаданные, музыка, музыкальные метаданные, музыкальные сервисы, разработка, стриминг, Юникод

Музыканты — ребята творческие. И называют они себя и свои произведения тоже творчески. Иногда так заковыристо, что программистам стримингов и музыкальных сервисов остается только посочувствовать.

Как музыканты издеваются над программистами - 1

Читать полностью »

DSL KeyPad — ввод более 4 700 символов Юникода прямо с клавиатуры

2025-07-30 в 21:55, admin, рубрики: autohotkey, qwerty, Unicode, йцукен, клавиатура, набор текста, раскладка клавиатуры, типографика, Юникод, языки

Содержание
• Краткий экскурс
• Краткий перечень возможностей
• Подробнее об основных возможностях
⁃ Многослойные привязки
⁃ Режим композиции
Читать полностью »

Важные аспекты Unicode, о которых должен знать каждый разработчик JavaScript

2024-01-23 в 8:01, admin, рубрики: javascript, timeweb_статьи_перевод, Unicode, utf-16, utf-8, web-разработка, webdevelopment, Юникод

Должен признаться: на протяжении очень долгого времени я испытывал страх перед Unicode. Когда была необходимость в работе с Unicode, я предпочитал искать альтернативные пути решения, поскольку не совсем понимал, что делаю.

Я старался избегать работы с Unicode до тех пор, пока не столкнулся с проблемой, требующей глубокого понимания этого стандарта, а других вариантов решения просто не было.

Приложив определенные усилия, прочитав кучу статей — я постепенно начал понимать что к чему, и это оказалось не так уж трудно. Хотя, некоторые статьи приходилось перечитывать раза по 3.

Как оказалось, Unicode — это универсальный и удобный стандарт, но работать с ним может быть непросто из-за множества абстрактных терминов.

Если у вас есть пробелы в понимании Unicode, то сейчас самое подходящее время их заполнить! Заварите себе вкусный чай или кофе ☕. И давайте погрузимся в удивительный мир абстракций, символов, астралов (astrals) и суррогатов (surrogates).

В этой статье объясняются основные концепции Unicode, которые создадут необходимую базу для работы с ним.

Вы также узнаете, как JavaScript взаимодействует с Unicode и какие трудности могут возникнуть на этом пути.

А также, каким образом новые функции из ECMAScript 2015 могут помочь в решении этих проблем.

Готовы? Давайте начнем!

Читать полностью »

7 ложных предположений о том, как устроены строки

2021-09-06 в 14:40, admin, рубрики: ASCII, security, software security, Unicode, безопасность, безопасность по, Блог компании Typeable, информационная безопасность, кодировки, кодировки текста, обработка строк, обработка текстов, Программирование, строки, текст, уязвимости, Юникод

Как Unicode уничтожает большинство ваших предположений о том, как на самом деле работают строки

7 ложных предположений о том, как устроены строки - 1

Когда речь идет о написании чего-то простого, мы, программисты, обычно действуем интуитивно. В случае с простыми вещами мы полагаемся на четкий набор предположений вместо конкретных знаний о том, как эти вещи работают. Например, мы предполагаем, что если b = a + 1, то b больше a, или что если мы применим функцию malloc для какого-то буфера, то получим необходимое количество памяти для записи. Мы не заглядываем в документацию всякий раз, когда имеем дело с мелочами.

Мы делаем так, потому что тотальная проверка замедлит работу. Однако если бы мы все-таки провели проверку, мы бы обнаружили, что обычно ошибаемся в своих предположениях. Существует арифметическое переполнение, в результате которого a + 1 может быть значительно меньше, чем a. Иногда malloc дает нам null вместо буфера и мы оказываемся в пролете.

Нам обычно приходится обжечься на таких вещах, чтобы хотя бы немного изменить свои предположения. И даже тогда мы обычно исправляем их весьма условно.
Столкнувшись с досадной ошибкой переполнения, мы можем скорректировать свое предположение о целых числах в виде «a + 1 больше a, если отсутствует вероятность, при которой a представляет собой очень большое число». И мы действуем исходя из этого, вместо того, чтобы обдумать четкие правила, по которым работает переполнение.

Уточненные предположения – это опыт. Чаще всего они позволяют нам работать быстрее и правильнее. Однако мы можем вообще переместить некоторые вещи, например, правильную обработку malloc, из нашей внутренней категории «простые вещи» во внутреннюю категорию «сложные вещи». И тогда мы действительно можем пойти и уточнить, как они работают.

Читать полностью »

Ещё один велосипед: храним юникодные строки на 30-60% компактнее, чем UTF-8

2020-10-02 в 12:04, admin, рубрики: scsu, Unicode, utf-8, utf-c, Алгоритмы, кодировки, сжатие данных, хранение данных, Юникод

Ещё один велосипед: храним юникодные строки на 30-60% компактнее, чем UTF-8 - 1

Если вы разработчик и перед вами стоит задача выбора кодировки, то почти всегда правильным решением будет Юникод. Конкретный способ представления зависит от контекста, но чаще всего тут тоже есть универсальный ответ — UTF-8. Он хорош тем, что позволяет использовать все символы Юникода, не тратя слишком много байт в большинстве случаев. Правда, для языков, использующих не только латиницу, «не слишком много» — это как минимум два байта на символ. Можно ли лучше, не возвращаясь к доисторическим кодировкам, ограничивающим нас всего 256 доступными символами?

Ниже предлагаю ознакомиться с моей попыткой дать ответ на этот вопрос и реализацию относительно простого алгоритма, позволяющего хранить строчки на большинстве языков мира, не добавляя той избыточности, которая есть в UTF-8.Читать полностью »

Этот восхитительный Юникод

2020-01-23 в 10:46, admin, рубрики: ES Reverser, IT-стандарты, Unicode, utf-16, UTF-32, utf-8, кодовое пространство, основная многоязычная плоскость, спецификации, суррогатная пара, типографика, Юникод

Этот восхитительный Юникод - 1

Перед вами обновляемый список самых замечательных «вкусностей» Юникода, а также пакетов и ресурсов

Юникод — это потрясающе! До его появления международная коммуникация была изнурительной: каждый определял свой отдельный расширенный набор символов в верхней половине ASCII (так называемые кодовые страницы). Это порождало конфликты. Просто подумайте, что немцам приходилось договариваться с корейцами, где чья кодовая страница на 127 символа. К счастью, появился Юникод и унифицировал коммуникации. Стандарт Юникод 8.0 охватывает более 120 000 символов из более 129 письменностей. И современные, и древние, и до сих пор не расшифрованные. Юникод поддерживает текст слева направо и справа налево, наложение символов и включает самые разные культурные, политические, религиозные символы и эмодзи. Юникод потрясающе человечен, а его возможности сильно недооцениваются.
Читать полностью »

Взлом с помощью Юникода (на примере GitHub)

2019-12-20 в 11:43, admin, рубрики: dotless i, github, Unicode, Блог компании GlobalSign, забытый пароль, информационная безопасность, коллизия трансляции, проверка адреса email, Разработка веб-сайтов, типографика, Юникод

Взлом с помощью Юникода (на примере GitHub) - 1 Юникод исключительно сложен. Мало кто знает все хитрости: от невидимых символов и контрольных знаков до суррогатных пар и комбинированных эмодзи (когда при сложении двух знаков получается третий). Стандарт включает 2¹⁶ кодовых позиций в 17-ти плоскостях. По сути, изучение Юникода можно сравнить с изучением отдельного языка программирования.

Неудивительно, что веб-разработчики упускают из вида некоторые нюансы. С другой стороны, злоумышленники могут использовать особенности Юникода в своих целях, что и делают.

Специалист по безопасности Джон Грейси продемонстрировал на примере GitHub баг проверки адреса электронной почты для восстановления забытого пароля. Подобные баги можно встретить и на других сайтах.
Читать полностью »

Редактирование текста тоже вас ненавидит

2019-10-31 в 14:18, admin, рубрики: TextEdit, браузеры, ввод текста, выделение текста, графический дизайн, метод ввода, модификаторы, разработка под windows, редактор метода ввода, текстовый редактор, типографика, эмодзи, Юникод

Опубликованная месяц назад статья Алексис Бингесснер «Рендеринг текста вас ненавидит» очень мне близка.

В далёком 2017 году я разрабатывал интерактивный текстовый редактор в браузере. Неудовлетворённый существующими библиотеками на ContentEditable, я подумал: «Эй, да просто заново реализую выделение текста! Разве это сложно?» Я был молод. Наивен. Прикинул, что справлюсь за две недели. На самом деле попытка решить эту проблему отняла несколько лет моей жизни, в том числе год оплачиваемой работы с утра до вечера по разработке текстового редактора для новой ОС.

На работе мне посчастливилось многое узнать у наставников с огромным опытом в этой области. Я слышал много, очень много страшных историй. В том числе об инженере, который поддерживал приложение Windows с кастомной реализацией текстового поля — и хотел перейти с устаревшего API ввода текста на новую версию. Вот список интерфейсов для ввода текста в этой новой версии:

Редактирование текста тоже вас ненавидит - 1
Читать полностью »

Призраки в Юникоде

2018-07-30 в 23:11, admin, рубрики: JIS X 0208, типографика, Юникод

В 1978 году Министерство экономики, торговли и промышленности Японии установило кодировку, которую позже назовут JIS X 0208. Она до сих пор является основой всех японских кодировок. Но после выхода стандарта JIS люди заметили нечто странное: некоторые из добавленных символов не имели очевидных источников. Никто не мог сказать, что они означают и как их произносить. Никто не был уверен, откуда они появились. Эти символы теперь известны как призраки (幽霊文字).

Призраки в Юникоде - 1
Будьте осторожны с тем, что вы пишете. via NDL
Читать полностью »

Тяжкое наследие прошлого. Проблемы командной строки Windows

2018-07-20 в 8:58, admin, рубрики: api, powershell, UCS-2, windows, Windows Console, командная строка, консоль, Оболочки, разработка под windows, Юникод

Предисловие от автора, Рича Тёрнера из Microsoft. Это статья о командной строке: от её появления и эволюции до планов капительного ремонта Windows Console и командной строки в будущих версиях Windows. Будь вы опытным профессионалом или новичком в IT, надеемся, что вы найдёте статью интересной.

Давным-давно в далёкой-далёкой серверной...

С первых дней развития информатики людям нужен был эффективный способ передавать компьютеру команды и данные и видеть результат выполнения этих команд/вычислений.

Одним из первых по-настоящему эффективных человеко-машинных интерфейсов стал Tele-Typewriter или «телетайп». Это электромеханическая машина с клавиатурой для ввода данных и каким-нибудь устройством вывода — сначала использовался принтер, позже экран.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «Юникод»

Как музыканты издеваются над программистами

DSL KeyPad — ввод более 4 700 символов Юникода прямо с клавиатуры

Важные аспекты Unicode, о которых должен знать каждый разработчик JavaScript

7 ложных предположений о том, как устроены строки

Ещё один велосипед: храним юникодные строки на 30-60% компактнее, чем UTF-8

Этот восхитительный Юникод

Взлом с помощью Юникода (на примере GitHub)

Редактирование текста тоже вас ненавидит

Призраки в Юникоде

Тяжкое наследие прошлого. Проблемы командной строки Windows

Давным-давно в далёкой-далёкой серверной...