Главная

Рубрика «utf-c»

Ну всё, пора закапывать UTF-8

2026-01-05 в 16:20, admin, рубрики: $mol, bocu-1, scsu, ucf, UCS-2, ucs-4, utf-16, UTF-32, utf-8, utf-c

Здравствуйте, меня зовут Дмитрий Карловский и я... серийный убийца устоявшихся стандартов. Сегодня я выследил и нанёс критический урон UTF-8. И сейчас я расскажу, как я его переиграл и уничтожил новым стандартом кодирования текста — Unicode Compact Format.

Древний Вавилон

Сначала был 7-битный Читать полностью »

Ещё один велосипед: храним юникодные строки на 30-60% компактнее, чем UTF-8

2020-10-02 в 12:04, admin, рубрики: scsu, Unicode, utf-8, utf-c, Алгоритмы, кодировки, сжатие данных, хранение данных, Юникод

Ещё один велосипед: храним юникодные строки на 30-60% компактнее, чем UTF-8 - 1

Если вы разработчик и перед вами стоит задача выбора кодировки, то почти всегда правильным решением будет Юникод. Конкретный способ представления зависит от контекста, но чаще всего тут тоже есть универсальный ответ — UTF-8. Он хорош тем, что позволяет использовать все символы Юникода, не тратя слишком много байт в большинстве случаев. Правда, для языков, использующих не только латиницу, «не слишком много» — это как минимум два байта на символ. Можно ли лучше, не возвращаясь к доисторическим кодировкам, ограничивающим нас всего 256 доступными символами?

Ниже предлагаю ознакомиться с моей попыткой дать ответ на этот вопрос и реализацию относительно простого алгоритма, позволяющего хранить строчки на большинстве языков мира, не добавляя той избыточности, которая есть в UTF-8.Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Комментарии

Рекомендуем

Рубрика «utf-c»

Ну всё, пора закапывать UTF-8

Древний Вавилон

Ещё один велосипед: храним юникодные строки на 30-60% компактнее, чем UTF-8