Unicode определенно усложнил обработку строк, а люди, которые используют языки исключительно с алфавитами ASCII, могут подумать, что это неоправданно. Однако я не говорю на языке ASCII и достаточно взрослый, чтобы помнить альтернативы, и альтернативы были намного хуже, чем сложность Unicode.
Рубрика «Unicode» - 2
Жизнь до Unicode
2021-08-24 в 11:42, admin, рубрики: ASCII, cp866, html, irc, iso, IT-стандарты, koi8, open source, Unicode, web, браузеры, девяностые, штирлицUnicode: как человечество пришло к международному стандарту кодирования символов
2021-04-15 в 12:00, admin, рубрики: Unicode, Блог компании Selectel, история создания, кодирование, Морзе, Научно-популярное, телеграф
Уверена, что большинство читателей хоть немного знакомы с терминами «Unicode» и «UTF-8». Но все ли знают, что именно стоит за ними? По сути они относятся к стандартам кодирования символов, также известным как наборы символов. Концепция появилась во времена оптического телеграфа, а не в компьютерную эру, как можно было подумать. Еще в 18 веке существовала потребность в быстрой передаче информации на большие расстояния, для чего использовались так называемые телеграфные коды. Информация кодировалась с помощью оптических, электронных и других средств.
Читать полностью »
Правда о регистре символов, которую должны знать программисты
2020-10-29 в 11:14, admin, рубрики: Unicode, верхний регистр, кодовая позиция, нижний регистр, Программирование, регистр символов, титульный регистрНа конференции North Bay Python в 2018 году я делал доклад об именах пользователей. Информация из доклада по большей части была собрана мною за 12 лет поддержки django-registration. Этот опыт дал мне гораздо больше знаний, чем я планировал получить, о том, насколько сложными могут быть «простые» вещи.
В начале доклада я, правда, упомянул, что это не будет очередное разоблачение из серии «заблуждения по поводу Х, в которые верят программисты». Таких разоблачений можно найти сколько угодно. Однако мне подобные статьи не нравятся. В них перечисляются разные вещи, якобы являющиеся ложными, однако очень редко объясняется – почему это так, и что нужно делать вместо этого. Подозреваю, что люди просто прочтут такие статьи, поздравят себя с этим достижением, и потом пойдут находить новые интересные способы делать ошибки, не упомянутые в этих статьях. Всё потому, что они на самом деле не поняли проблем, порождающих этих ошибки.
Читать полностью »
Ещё один велосипед: храним юникодные строки на 30-60% компактнее, чем UTF-8
2020-10-02 в 12:04, admin, рубрики: scsu, Unicode, utf-8, utf-c, Алгоритмы, кодировки, сжатие данных, хранение данных, ЮникодЕсли вы разработчик и перед вами стоит задача выбора кодировки, то почти всегда правильным решением будет Юникод. Конкретный способ представления зависит от контекста, но чаще всего тут тоже есть универсальный ответ — UTF-8. Он хорош тем, что позволяет использовать все символы Юникода, не тратя слишком много байт в большинстве случаев. Правда, для языков, использующих не только латиницу, «не слишком много» — это как минимум два байта на символ. Можно ли лучше, не возвращаясь к доисторическим кодировкам, ограничивающим нас всего 256 доступными символами?
Ниже предлагаю ознакомиться с моей попыткой дать ответ на этот вопрос и реализацию относительно простого алгоритма, позволяющего хранить строчки на большинстве языков мира, не добавляя той избыточности, которая есть в UTF-8.Читать полностью »
Обработка изображений ReactJS — NodeJS
2020-03-08 в 13:09, admin, рубрики: arraybuffer, ASCII, express.js, filereader, hex, javascript, node.js, nodejs, react.js, ReactJS, uint8Array, Unicode, двоичная система счисленияДоброго времени суток.
Разбор полетов провожу на Reactjs (сторона клиента) и Nodejs (сторона сервера).
Недавно в моем маленьком проекте встал вопрос, как легко и просто можно обмениваться изображениями по типу клиент — сервер.
Сегодня мы научимся отправлять бинарные данные (конкретно изображения ) со стороны клиента и обрабатывать их на сервере. Добро пожаловать в под кат.
Читать полностью »
Как добавить новые символы в Unicode: опыт обывателя
2020-02-02 в 16:19, admin, рубрики: 1cloud, Unicode, Блог компании 1cloud.ru, веб-стандарты, Разработка веб-сайтовВсе знают про общепринятый стандарт Unicode. Его (UTF-8) использует абсолютное большинство веб-ресурсов. А Unicode Consortium под управлением Марка Дэвиса — одного из ключевых контрибьюторов оригинальной спецификации 1987 года — периодически вносит обновления.
На днях к апдейтам вроде китайского письма нюй-шу или горизонтальной квадратной письменности монголов добавили кучу эмодзи. Но мало кто знает, что иногда в плановые обновления попадают и более привычные нам символы из повседневной жизни, а инициаторами таких изменений становятся обыкновенные энтузиасты. Подобный случай произошел несколько лет назад, когда Unicode пополнился символами рабочих режимов электроприборов.
Этот восхитительный Юникод
2020-01-23 в 10:46, admin, рубрики: ES Reverser, IT-стандарты, Unicode, utf-16, UTF-32, utf-8, кодовое пространство, основная многоязычная плоскость, спецификации, суррогатная пара, типографика, ЮникодПеред вами обновляемый список самых замечательных «вкусностей» Юникода, а также пакетов и ресурсов
Юникод — это потрясающе! До его появления международная коммуникация была изнурительной: каждый определял свой отдельный расширенный набор символов в верхней половине ASCII (так называемые кодовые страницы). Это порождало конфликты. Просто подумайте, что немцам приходилось договариваться с корейцами, где чья кодовая страница на 127 символа. К счастью, появился Юникод и унифицировал коммуникации. Стандарт Юникод 8.0 охватывает более 120 000 символов из более 129 письменностей. И современные, и древние, и до сих пор не расшифрованные. Юникод поддерживает текст слева направо и справа налево, наложение символов и включает самые разные культурные, политические, религиозные символы и эмодзи. Юникод потрясающе человечен, а его возможности сильно недооцениваются.
Читать полностью »
Взлом с помощью Юникода (на примере GitHub)
2019-12-20 в 11:43, admin, рубрики: dotless i, github, Unicode, Блог компании GlobalSign, забытый пароль, информационная безопасность, коллизия трансляции, проверка адреса email, Разработка веб-сайтов, типографика, ЮникодЮникод исключительно сложен. Мало кто знает все хитрости: от невидимых символов и контрольных знаков до суррогатных пар и комбинированных эмодзи (когда при сложении двух знаков получается третий). Стандарт включает 216 кодовых позиций в 17-ти плоскостях. По сути, изучение Юникода можно сравнить с изучением отдельного языка программирования.
Неудивительно, что веб-разработчики упускают из вида некоторые нюансы. С другой стороны, злоумышленники могут использовать особенности Юникода в своих целях, что и делают.
Специалист по безопасности Джон Грейси продемонстрировал на примере GitHub баг проверки адреса электронной почты для восстановления забытого пароля. Подобные баги можно встретить и на других сайтах.
Читать полностью »
Печальная судьба спецификаторов формата функции printf для символов Юникода в Visual C++
2019-09-10 в 10:43, admin, рубрики: C, c++, printf, Unicode, visual c++, Visual Studio, Блог компании PVS-Studio, история, переносимость кода, разработка под windows, СиПоддержка Юникода в Windows появилась раньше, чем в большинстве остальных операционных систем. Из-за этого многие проблемы, связанные с представлением символов, в Windows решались не так, как в других системах, разработчики которых отложили внедрение нового стандарта до лучших времён [1]. Самый показательный пример: в Windows для представления символов Юникода используется кодировка UCS-2. Она была рекомендована Консорциумом Юникода, поскольку версия 1.0 поддерживала только 65 536 символов [2]. Пять лет спустя Консорциум передумал, но к тому времени менять что-то в Windows было уже поздно, так как на рынок уже были выпущены системы Win32s, Windows NT 3.1, Windows NT 3.5, Windows NT 3.51 и Windows 95 — все они использовали кодировку UCS-2 [3].
Но сегодня мы поговорим о строках форматирования функции printf.
Читать полностью »
Локализация приложения и поддержка RTL. Доклад Яндекс.Такси
2019-06-16 в 9:45, admin, рубрики: bcp, gradle, iso, l10n, RTL, textinpu, ui/ux, Unicode, Блог компании Яндекс, локализация, локализация интерфейса, локализация приложений, Локализация продуктов, разработка мобильных приложений, Разработка под androidПри локализации сервиса важно внимательно отнестись к согласованию переводов между собой. Руководитель группы клиентской Android-разработки Яндекс.Такси Александр Бонель рассказал, какие практики и инструменты упрощают локализацию. Во второй части доклада Саша поделился опытом поддержки языка RTL в приложении: что хорошо, а что не совсем работает у Андроида из коробки, какие проблемы возникают из-за поддержки RTL и как их минимизировать в будущем.
— В своем докладе я хочу рассказать, какие основные идеи и практики мы используем в командах разработки мобильных приложений Такси для решения вопросов, связанных с локализацией и актуализацией перевода в наших приложениях. Затем расскажу, как мы внедряли в приложение поддержку работы в режиме отрисовки справа налево.