Рубрика «Unicode» - 2

Сортировка слиянием — не так просто, как кажется

2023-02-03 в 8:28, admin, рубрики: .net, C#, Unicode, Алгоритмы, внешняя сортировка, оптимизация, Программирование, сортировка слиянием

В одной конторе соискателю на позицию Senior C# developer выдали тестовое задание: отсортировать файл со строками определенного формата.

Требования такие:

Формат строки: число, точка, пробел, далее любые символы до конца строки.
Порядок сортировки — сначала сортируем текстовой части строки, потом по числу если текстовые части совпадают.
Кодировка — UTF-8.
Размер файла — 100гб - гарантированно больше объема ОП.
Должно отработать за 1 час на машине проверяющего, вряд ли там будет супер-быстрый SSD и огромное количество оперативной памяти.

Читать полностью »

Цемна стронэ Моцы

2021-12-23 в 22:00, admin, рубрики: javascript, natural language processing, speedcubing, starwars, Unicode, изучение языков, Лайфхаки для гиков, Научно-популярное, польский язык, пятничное, фильмы

Початково рыцер Еди, под вплывем Дартха Сидиоуса прешедл на цемна стронэ Моцы и прыял тытул „Дартх Вадер”.

Вы поняли что-то из предыдущего предложения? Это польский язык. Это не перевод, это польский язык как он есть, просто записаный кириллицей. Вчера, я случайно оказался на польском сайте, там всё было написано по польски, ничего не понятно, и мне вдруг стало любопытно, что если конвертировать польский текст в кириллицу, смогу ли я, внезапно, понимать его? Ну хоть на сколько-то понимать. Готового такого конвертера я нигде не нашел, ни на гитхабе ни в переводчиках типа Гугла. Пришлось написать самому.

Читать полностью »

7 ложных предположений о том, как устроены строки

2021-09-06 в 14:40, admin, рубрики: ASCII, security, software security, Unicode, безопасность, безопасность по, Блог компании Typeable, информационная безопасность, кодировки, кодировки текста, обработка строк, обработка текстов, Программирование, строки, текст, уязвимости, Юникод

Как Unicode уничтожает большинство ваших предположений о том, как на самом деле работают строки

7 ложных предположений о том, как устроены строки - 1

Когда речь идет о написании чего-то простого, мы, программисты, обычно действуем интуитивно. В случае с простыми вещами мы полагаемся на четкий набор предположений вместо конкретных знаний о том, как эти вещи работают. Например, мы предполагаем, что если b = a + 1, то b больше a, или что если мы применим функцию malloc для какого-то буфера, то получим необходимое количество памяти для записи. Мы не заглядываем в документацию всякий раз, когда имеем дело с мелочами.

Мы делаем так, потому что тотальная проверка замедлит работу. Однако если бы мы все-таки провели проверку, мы бы обнаружили, что обычно ошибаемся в своих предположениях. Существует арифметическое переполнение, в результате которого a + 1 может быть значительно меньше, чем a. Иногда malloc дает нам null вместо буфера и мы оказываемся в пролете.

Нам обычно приходится обжечься на таких вещах, чтобы хотя бы немного изменить свои предположения. И даже тогда мы обычно исправляем их весьма условно.
Столкнувшись с досадной ошибкой переполнения, мы можем скорректировать свое предположение о целых числах в виде «a + 1 больше a, если отсутствует вероятность, при которой a представляет собой очень большое число». И мы действуем исходя из этого, вместо того, чтобы обдумать четкие правила, по которым работает переполнение.

Уточненные предположения – это опыт. Чаще всего они позволяют нам работать быстрее и правильнее. Однако мы можем вообще переместить некоторые вещи, например, правильную обработку malloc, из нашей внутренней категории «простые вещи» во внутреннюю категорию «сложные вещи». И тогда мы действительно можем пойти и уточнить, как они работают.

Читать полностью »

Жизнь до Unicode

2021-08-24 в 11:42, admin, рубрики: ASCII, cp866, html, irc, iso, IT-стандарты, koi8, open source, Unicode, web, браузеры, девяностые, штирлиц

Unicode определенно усложнил обработку строк, а люди, которые используют языки исключительно с алфавитами ASCII, могут подумать, что это неоправданно. Однако я не говорю на языке ASCII и достаточно взрослый, чтобы помнить альтернативы, и альтернативы были намного хуже, чем сложность Unicode.

Читать полностью »

Unicode: как человечество пришло к международному стандарту кодирования символов

2021-04-15 в 12:00, admin, рубрики: Unicode, Блог компании Selectel, история создания, кодирование, Морзе, Научно-популярное, телеграф

Уверена, что большинство читателей хоть немного знакомы с терминами «Unicode» и «UTF-8». Но все ли знают, что именно стоит за ними? По сути они относятся к стандартам кодирования символов, также известным как наборы символов. Концепция появилась во времена оптического телеграфа, а не в компьютерную эру, как можно было подумать. Еще в 18 веке существовала потребность в быстрой передаче информации на большие расстояния, для чего использовались так называемые телеграфные коды. Информация кодировалась с помощью оптических, электронных и других средств.
Читать полностью »

Правда о регистре символов, которую должны знать программисты

2020-10-29 в 11:14, admin, рубрики: Unicode, верхний регистр, кодовая позиция, нижний регистр, Программирование, регистр символов, титульный регистр

На конференции North Bay Python в 2018 году я делал доклад об именах пользователей. Информация из доклада по большей части была собрана мною за 12 лет поддержки django-registration. Этот опыт дал мне гораздо больше знаний, чем я планировал получить, о том, насколько сложными могут быть «простые» вещи.

В начале доклада я, правда, упомянул, что это не будет очередное разоблачение из серии «заблуждения по поводу Х, в которые верят программисты». Таких разоблачений можно найти сколько угодно. Однако мне подобные статьи не нравятся. В них перечисляются разные вещи, якобы являющиеся ложными, однако очень редко объясняется – почему это так, и что нужно делать вместо этого. Подозреваю, что люди просто прочтут такие статьи, поздравят себя с этим достижением, и потом пойдут находить новые интересные способы делать ошибки, не упомянутые в этих статьях. Всё потому, что они на самом деле не поняли проблем, порождающих этих ошибки.
Читать полностью »

Ещё один велосипед: храним юникодные строки на 30-60% компактнее, чем UTF-8

2020-10-02 в 12:04, admin, рубрики: scsu, Unicode, utf-8, utf-c, Алгоритмы, кодировки, сжатие данных, хранение данных, Юникод

Ещё один велосипед: храним юникодные строки на 30-60% компактнее, чем UTF-8 - 1

Если вы разработчик и перед вами стоит задача выбора кодировки, то почти всегда правильным решением будет Юникод. Конкретный способ представления зависит от контекста, но чаще всего тут тоже есть универсальный ответ — UTF-8. Он хорош тем, что позволяет использовать все символы Юникода, не тратя слишком много байт в большинстве случаев. Правда, для языков, использующих не только латиницу, «не слишком много» — это как минимум два байта на символ. Можно ли лучше, не возвращаясь к доисторическим кодировкам, ограничивающим нас всего 256 доступными символами?

Ниже предлагаю ознакомиться с моей попыткой дать ответ на этот вопрос и реализацию относительно простого алгоритма, позволяющего хранить строчки на большинстве языков мира, не добавляя той избыточности, которая есть в UTF-8.Читать полностью »

Обработка изображений ReactJS — NodeJS

2020-03-08 в 13:09, admin, рубрики: arraybuffer, ASCII, express.js, filereader, hex, javascript, node.js, nodejs, react.js, ReactJS, uint8Array, Unicode, двоичная система счисления

Доброго времени суток.

Разбор полетов провожу на Reactjs (сторона клиента) и Nodejs (сторона сервера).

Недавно в моем маленьком проекте встал вопрос, как легко и просто можно обмениваться изображениями по типу клиент — сервер.

Сегодня мы научимся отправлять бинарные данные (конкретно изображения ) со стороны клиента и обрабатывать их на сервере. Добро пожаловать в под кат.
Читать полностью »

Как добавить новые символы в Unicode: опыт обывателя

2020-02-02 в 16:19, admin, рубрики: 1cloud, Unicode, Блог компании 1cloud.ru, веб-стандарты, Разработка веб-сайтов

Все знают про общепринятый стандарт Unicode. Его (UTF-8) использует абсолютное большинство веб-ресурсов. А Unicode Consortium под управлением Марка Дэвиса — одного из ключевых контрибьюторов оригинальной спецификации 1987 года — периодически вносит обновления.

На днях к апдейтам вроде китайского письма нюй-шу или горизонтальной квадратной письменности монголов добавили кучу эмодзи. Но мало кто знает, что иногда в плановые обновления попадают и более привычные нам символы из повседневной жизни, а инициаторами таких изменений становятся обыкновенные энтузиасты. Подобный случай произошел несколько лет назад, когда Unicode пополнился символами рабочих режимов электроприборов.

Читать полностью »

Этот восхитительный Юникод

2020-01-23 в 10:46, admin, рубрики: ES Reverser, IT-стандарты, Unicode, utf-16, UTF-32, utf-8, кодовое пространство, основная многоязычная плоскость, спецификации, суррогатная пара, типографика, Юникод

Этот восхитительный Юникод - 1

Перед вами обновляемый список самых замечательных «вкусностей» Юникода, а также пакетов и ресурсов

Юникод — это потрясающе! До его появления международная коммуникация была изнурительной: каждый определял свой отдельный расширенный набор символов в верхней половине ASCII (так называемые кодовые страницы). Это порождало конфликты. Просто подумайте, что немцам приходилось договариваться с корейцами, где чья кодовая страница на 127 символа. К счастью, появился Юникод и унифицировал коммуникации. Стандарт Юникод 8.0 охватывает более 120 000 символов из более 129 письменностей. И современные, и древние, и до сих пор не расшифрованные. Юникод поддерживает текст слева направо и справа налево, наложение символов и включает самые разные культурные, политические, религиозные символы и эмодзи. Юникод потрясающе человечен, а его возможности сильно недооцениваются.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «Unicode» - 2

Сортировка слиянием — не так просто, как кажется

Цемна стронэ Моцы

7 ложных предположений о том, как устроены строки

Жизнь до Unicode

Unicode: как человечество пришло к международному стандарту кодирования символов

Правда о регистре символов, которую должны знать программисты

Ещё один велосипед: храним юникодные строки на 30-60% компактнее, чем UTF-8

Обработка изображений ReactJS — NodeJS

Как добавить новые символы в Unicode: опыт обывателя

Этот восхитительный Юникод