Рубрика «utf-8»

Как же прекрасна структура UTF-8

2025-09-21 в 9:01, admin, рубрики: ASCII, ruvds_перевод, Unicode, utf-8, кодировки символов

Когда я впервые узнал о кодировке UTF-8, то был поражён её продуманностью и структурой. Тем, как изящно её авторам удалось выразить миллионы символов разных языков и письменностей, параллельно сохранив обратную совместимость с ASCII.

Читать полностью »

Нельзя предполагать, что все используют UTF-8

2024-05-02 в 13:00, admin, рубрики: koi8, ruvds_переводы, Unicode, utf-16, utf-8, win-1252, кодировки текста, определение кодировок

Как вычислять кодировку при помощи статистики

Люди говорят на бесчисленном количестве разных языков. Эти языки не только несовместимы между собой, но и представляют огромную трудность при транспиляции в среде исполнения. К сожалению, все попытки стандартизации провалились.

По крайней мере, в таком положении вещей есть, кого винить: Бога. Ведь именно он вынудил человечество говорить на разных языках из-за древнего спора о строительстве объекта недвижимости.

Однако человечество может винить себя за то, что сложности в общении испытывают компьютеры.

И одна из самых больших проблем одновременно является самой простой: компьютеры не договорились о том, как записывать буквы двоичным кодом.
Читать полностью »

Важные аспекты Unicode, о которых должен знать каждый разработчик JavaScript

2024-01-23 в 8:01, admin, рубрики: javascript, timeweb_статьи_перевод, Unicode, utf-16, utf-8, web-разработка, webdevelopment, Юникод

Должен признаться: на протяжении очень долгого времени я испытывал страх перед Unicode. Когда была необходимость в работе с Unicode, я предпочитал искать альтернативные пути решения, поскольку не совсем понимал, что делаю.

Я старался избегать работы с Unicode до тех пор, пока не столкнулся с проблемой, требующей глубокого понимания этого стандарта, а других вариантов решения просто не было.

Приложив определенные усилия, прочитав кучу статей — я постепенно начал понимать что к чему, и это оказалось не так уж трудно. Хотя, некоторые статьи приходилось перечитывать раза по 3.

Как оказалось, Unicode — это универсальный и удобный стандарт, но работать с ним может быть непросто из-за множества абстрактных терминов.

Если у вас есть пробелы в понимании Unicode, то сейчас самое подходящее время их заполнить! Заварите себе вкусный чай или кофе ☕. И давайте погрузимся в удивительный мир абстракций, символов, астралов (astrals) и суррогатов (surrogates).

В этой статье объясняются основные концепции Unicode, которые создадут необходимую базу для работы с ним.

Вы также узнаете, как JavaScript взаимодействует с Unicode и какие трудности могут возникнуть на этом пути.

А также, каким образом новые функции из ECMAScript 2015 могут помочь в решении этих проблем.

Готовы? Давайте начнем!

Читать полностью »

1. Введение в Unicode (опять?)

2023-07-31 в 22:00, admin, рубрики: IT-стандарты, Rust, Unicode, utf-16, UTF-32, utf-8, валидация, Программирование

Всем здравствуйте, меня зовут Антон, и этой статьей я открываю новый цикл публикаций про Unicode. Сразу может возникнуть вопрос — зачем? Их же и так море?

На Хабре, как и вообще в русскоязычном сегменте Интернета, в основном можно найти обзорные статьи, дающие лишь общее представление о Юникоде, но о том, как с ним работать — информации крайне мало. Сами же его разработчики, Unicode Consortium, предоставляют довольно подробную… но очень объемную документацию Читать полностью »

Как придумали кодировку UTF-8: выдержки из переписки создателей

2021-04-14 в 9:11, admin, рубрики: Go, UNIX, utf-8, Блог компании RUVDS.com, Деннис Ритчи, Кен Томпсон, кодировка, легенда, Программирование

Всем известна кодировка UTF-8, что давно доминирует в интернет пространстве, и которой пользуются много лет. Казалось бы, о ней все известно, и ничего интересного на эту тему не рассказать. Если почитать популярные ресурсы типа Википедии, то действительно там нет ничего необычного, разве что в английской версии кратко упоминается странная история о том, как ее «набросали на салфетке в закусочной».

На самом деле изобретение этой кодировки не может быть настолько банальным хотя бы потому, что к ее созданию приложил руку Кен Томпсон — легендарная личность. Он работал вместе с Деннисом Ритчи, был одним из создателей UNIX, внес вклад в разработку C (изобрел его предшественника — B), а позднее, во время работы в Google, принял участие в создании языка Go.

Перед вами — перевод нескольких писем, в которых разработчики вспоминают историю создания кодировки.
Читать полностью »

Валидация UTF-8 меньше чем за одну инструкцию на байт

2021-04-06 в 13:01, admin, рубрики: utf-8, Блог компании RUVDS.com, валидация, Лайфхаки для гиков, Программирование

Валидация UTF-8 меньше чем за одну инструкцию на байт - 1

Даниэль Лемир – профессор Заочного квебекского университета (TÉLUQ), придумавший способ очень быстро парсить double – совместно с инженером Джоном Кайзером из Microsoft опубликовали ещё одну свою находку: валидатор UTF-8, обгоняющий библиотеку UTF-8 CPP (2006) в 48..77 раз, ДКА от Бьёрна Хёрманна (2009) – в 20..45 раз, и алгоритм Google Fuchsia (2020) – в 13..35 раз. Новость об этой публикации на хабре уже постили, но без технических подробностей; так что восполняем этот недочёт.Читать полностью »

Ещё один велосипед: храним юникодные строки на 30-60% компактнее, чем UTF-8

2020-10-02 в 12:04, admin, рубрики: scsu, Unicode, utf-8, utf-c, Алгоритмы, кодировки, сжатие данных, хранение данных, Юникод

Ещё один велосипед: храним юникодные строки на 30-60% компактнее, чем UTF-8 - 1

Если вы разработчик и перед вами стоит задача выбора кодировки, то почти всегда правильным решением будет Юникод. Конкретный способ представления зависит от контекста, но чаще всего тут тоже есть универсальный ответ — UTF-8. Он хорош тем, что позволяет использовать все символы Юникода, не тратя слишком много байт в большинстве случаев. Правда, для языков, использующих не только латиницу, «не слишком много» — это как минимум два байта на символ. Можно ли лучше, не возвращаясь к доисторическим кодировкам, ограничивающим нас всего 256 доступными символами?

Ниже предлагаю ознакомиться с моей попыткой дать ответ на этот вопрос и реализацию относительно простого алгоритма, позволяющего хранить строчки на большинстве языков мира, не добавляя той избыточности, которая есть в UTF-8.Читать полностью »

Этот восхитительный Юникод

2020-01-23 в 10:46, admin, рубрики: ES Reverser, IT-стандарты, Unicode, utf-16, UTF-32, utf-8, кодовое пространство, основная многоязычная плоскость, спецификации, суррогатная пара, типографика, Юникод

Этот восхитительный Юникод - 1

Перед вами обновляемый список самых замечательных «вкусностей» Юникода, а также пакетов и ресурсов

Юникод — это потрясающе! До его появления международная коммуникация была изнурительной: каждый определял свой отдельный расширенный набор символов в верхней половине ASCII (так называемые кодовые страницы). Это порождало конфликты. Просто подумайте, что немцам приходилось договариваться с корейцами, где чья кодовая страница на 127 символа. К счастью, появился Юникод и унифицировал коммуникации. Стандарт Юникод 8.0 охватывает более 120 000 символов из более 129 письменностей. И современные, и древние, и до сих пор не расшифрованные. Юникод поддерживает текст слева направо и справа налево, наложение символов и включает самые разные культурные, политические, религиозные символы и эмодзи. Юникод потрясающе человечен, а его возможности сильно недооцениваются.
Читать полностью »

Автоопределение кодировки текста

2020-01-08 в 9:56, admin, рубрики: bom, code page, Go, golang, koi8-r, utf-8, Программирование

Введение

Я очень люблю программировать, я любитель и первый и последний раз заработал на программировании в далёком 1996 году. Но для автоматизации повседневных задач иногда что-то пишу. Примерно год назад открыл для себя golang. В качестве инструмента создания утилит golang оказался очень удобным. Итак.

Возникла потребность обработать большое количество (больше тысячи, так и вижу улыбки профи) архивных файлов со специальной геофизической информацией. Формат файлов текстовый, простой. Если вдруг интересно то это LAS формат.
LAS файл содержит заголовок и данные.

Данные практически CSV, только разделитель табуляция или пробелы.

А заголовок содержит описание данных и вот в нём обычно содержится русский текст. Это может быть название месторождение, название исследований записанных в файл и пр.

Файлы эти созданы в разное время и в разных программах, доходит до того что в одном файле часть в кодировке CP1251 а часть в CP866. Файлы эти мне нужно обработать, а значит понять. Вот и потребовалось определять автоматически кодировку файла.

В итоге изобрёл велосипед на golang и соответственно родилась маленькая библиотечка с возможностью детектировать кодовую страницу.

Читать полностью »

Определение кодировки текста в PHP вместо mb_detect_encoding

2019-09-04 в 6:27, admin, рубрики: encodingcyrillic, ibm866, iconv, iso-8859-5, koi8-r, mb_detect_encoding, php, utf-8, windows-1251, кодировки текста, Программирование, Проектирование и рефакторинг

Существует несколько кодировок символов кириллицы.

При создании сайтов в Интернете обычно используют:

utf-8
windows-1251
koi8-r

Еще популярные кодировки:

iso-8859-5
ibm866
mac-cyrillic

Вероятно это не весь список, это те кодировки с которыми я часто сталкиваюсь.

Иногда появляется необходимость определить кодировку текста. И в PHP даже функция для этого есть:

mb_detect_encoding

но как писал m00t
в статье Определение кодировки текста в PHP — обзор существующих решений плюс еще один велосипед

Если кратко — он не работает.

Прочитав статьи m00t я не вдохновился его методом и нашел вот такое решение: Определение кодировки текста в PHP и Python
Как сказал m00t

опять коды символов

Я протестировал функцию определения кодировки по кодам символов, результат меня удовлетворил и я использовал эту функцию пару лет.

Недавно решил переписать проект где использовал эту функцию, нашел готовый пакет на packagist.org cnpait/detect_encoding, в котором кодировка определяется методом m00t

При этом указанный пакет был установлен более 1200 раз, значит не у меня одного периодически возникает задача определения кодировки текста.

Мне бы установить этот пакет и успокоиться, но я решил «заморочиться».
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «utf-8»

Как же прекрасна структура UTF-8

Нельзя предполагать, что все используют UTF-8

Важные аспекты Unicode, о которых должен знать каждый разработчик JavaScript

1. Введение в Unicode (опять?)

Как придумали кодировку UTF-8: выдержки из переписки создателей

Валидация UTF-8 меньше чем за одну инструкцию на байт

Ещё один велосипед: храним юникодные строки на 30-60% компактнее, чем UTF-8

Этот восхитительный Юникод

Автоопределение кодировки текста

Введение

Определение кодировки текста в PHP вместо mb_detect_encoding