Рубрика «Unicode» - 5

Как обычный вопрос на форуме привёл к добавлению 4½ символов в Юникод

2016-06-23 в 12:22, admin, рубрики: ASCII, Unicode, Дизайн в IT, Инфографика, питание, стандарт, Юникод

Несколько гиков добились своего

Как обычный вопрос на форуме привёл к добавлению 4½ символов в Юникод - 1

Оказывается, добавить символы в Юникод вполне реально, если потратить достаточно сил и времени. Следует только строго соблюдать процедуру и все правила.

Вчера произошло важное событие: консорциум Unicode опубликовал официальные спецификации нового стандарта Unicode 9.0. Наверное, больше всех радовался этому событию программист Теренс Иден (Terence Eden). Два с половиной года назад (3 декабря 2013 года) он опубликовал вопрос на популярном форуме для разработчиков Hacker News.

Каких полезных символов не хватает в Юникоде?

Теренс высказал идею, что наиболее очевидным кажется отсутствие знака «Питание». Знакомый всем символ Как обычный вопрос на форуме привёл к добавлению 4½ символов в Юникод - 2 определён в стандарте Международной электротехнической комиссии IEC 60417-5009 и примерно с середины 1970-х используется практически на каждом электронном устройстве, где имеется кнопка питания.
Читать полностью »

Принят стандарт Unicode 9.0

2016-06-22 в 20:55, admin, рубрики: ASCII, Unicode, Unicode 9.0, браваниз, варш, гендерное неравенство, Дизайн в IT, Инфографика, неварская письменность, осейдж, Си Ся, тунгутское письмо, фейспалм, фулани

Принят стандарт Unicode 9.0 - 1

Консорциум Unicode объявил о выходе окончательной версии стандарта Unicode 9.0. В девятую версии Unicode добавлено ровно 7500 новых символов, так что общее количество письменных знаков достигло 128 172.

Уточнены и теперь стандартизированы шесть малоизвестных алфавитов, в том числе письмо американских индейцев и древнекитайское тангутское письмо — вымершая система иероглифов, которая использовалась в государстве Си Ся.

Многие считают, что эмодзи играют всё более важную роль в коммуникациях, поэтому эксперты консорциума Unicode постарались расширить стандартный набор пиктограмм. Всего в стандарт добавлено 72 новых эмодзи.
Читать полностью »

Эмодзи?! Нет, не слышал

2016-04-21 в 9:42, admin, рубрики: badoo, emoji, es2015, html, javascript, Unicode, web-разработка, баду, Блог компании Badoo, Разработка веб-сайтов, чат

В нашу жизнь уже давно вошли эмодзи. И в социальных сетях, и во всевозможных мессенджерах мы используем их не задумываясь, выражая свои эмоции всего одним символом. Но для кроссплатформенного приложения отправка и отображение эмодзи — непростая задача. Проблема заключается в том, что отправленные эмодзи с мобильных приложений не всегда отображаются корректно на веб-сайтах.

Последние версии iOS и Android имеют поддержку более 1200 символов эмодзи, но «десктопный» рынок не может похвастаться такими успехами. Мы же в Badoo хотим и делаем все, чтобы пользователям было комфортно общаться на всех платформах, не имея никаких ограничений в переписке.
Далее я расскажу, каким способом мы добились 100% поддержки эмодзи для веба.
Читать полностью »

Unicode character properties в регулярных выражениях V8

2016-04-16 в 13:37, admin, рубрики: javascript, node.js, regular expressions, Unicode, unicode character properties, V8, Регулярные выражения, Юникод

Регулярные выражения в JavaScript понемногу догоняют PCRE.

Недавно упомянутая возможность lookbehind перешла на стадию флага --es_staging.

Разработчики V8 также начали добавлять в регулярные выражения свойства Юникода (см. общее описание и спецификацию этой характеристики символов).

В продвижении lookbehind и character properties, на мой взгляд, есть две разницы: первая возможность вводит совсем немного нового синтаксиса по сравнению со второй, зато вторая меньше изменяет поведение всего процесса (сравните количество затрагиваемых изменениями файлов в исходниках V8 по двум упомянутым ссылкам). По сути, свойства Юникода — всего лишь удобные сокращения, синонимы для разных групп codepoint-ов, поэтому от них можно ожидать минимум подвохов при интеграции в систему.

Конечно, обе возможности не советуют применять в продукции (кроме Google Chrome, они нигде в браузерах не реализованы, а Node.js только-только переходит на соответствующую им версию V8, в которой они всё равно пока под флагами).

Но для личных нужд (утилиты по обработке текста и т.д.), мне кажется, они вполне применимы. Возможно, коду разработчиков V8, даже экспериментальному, можно порой доверять с ничуть не большим риском, чем разнообразным библиотекам на npmjs или GitHub.Читать полностью »

Нужны ли в Unicode пельмени

2016-02-10 в 15:12, admin, рубрики: Unicode, краудфандинг, пельмени, регулирование интернета, эмодзи, метки: пельмени

Инициативная группа товарищей Emojination ратует за включение в обширный список эмодзи-иконок, уже присутствующих в стандарте Unicode, схематического изображения пельмешка. Группа запустила краудфандинговую кампанию «The Dumpling Emoji Project» по сбору средств для этой благородной цели и уже набрала более $11000 при заявленной необходимости в $3750.

Аналоги пельменей есть практически во всех кухнях мира. Вареники (в Польше они называются "pierogi"), равиоли, хинкали, эмпанада, цзяоцзы… Но, как описано в «пельменной» кампании по сбору средств, эмодзи для пиццы, гамбургера и тако – есть, а для пельменей – нет. Исправлять эту несправедливость планируется, войдя в состав комитета, утверждающего расширение стандарта Unicode.

Эта привилегия стоит $2500 в год – для членов, не имеющих права голоса (за право голосовать необходимо отдавать $18000 в год, и этим пользуются всего 11 членов комитета).
Читать полностью »

Финляндия первой в мире выпустила «национальные» эмодзи

2015-11-05 в 15:04, admin, рубрики: iOS, Nokia 3310, Unicode, Дизайн в IT, Инфографика, пиктограмма, смартфоны, финляндия, эмодзи

Финляндия первой в мире выпустила «национальные» эмодзи - 1

Финляндия стала первой страной в мире, которая выпустила «национальный» набор эмодзи — несколько маленьких пиктограмм для общения в чате. Выбор пиктограмм сугубо специфичный для этой северной страны: голые мужчина и женщина в сауне (пиктограмма «Сауна»), поклонник музыки в стиле «металл» (пиктограмма «Металлист») и легендарный телефон Nokia 3310 (пиктограмма «Небьющийся»).
Читать полностью »

Mimic: вредоносный скрипт, который портит нервы программистам

2015-10-25 в 17:02, admin, рубрики: Mimic, open source, Unicode, Демосцена, диверсия, Программирование

Mimic: вредоносный скрипт, который портит нервы программистам - 1 Участники российских государственных тендеров раньше применяли маленькую хитрость: заказчик и поставщик заранее договариваются о сделке. Затем в условиях тендера на открытом сайте некоторые кириллические символы заменяют на латинские, чтобы конкурент не нашёл тендер с помощью поиска.

Такой же способ используют авторы вредоносного скрипта Mimic, но с другой целью: испоганить программный код таким способом, что он не будет компилироваться, вызовет сотни синтаксических ошибок, а программист не сможет понять, в чём дело.

Например, в коде C# обычный символ точки с запятой (;) заменяется на греческий вопросительный знак (;). Подло, зато эффективно.
Читать полностью »

Не каждый человек может написать своё имя в Юникоде

2015-03-18 в 10:24, admin, рубрики: IT-стандарты, Unicode, utf-8, типографика, Юникод

Казалось бы, в Юникод включили уже все возможные и невозможные символы. В последней версии Unicode 7.0 добавлено 23 новых письменности, включая древнепермское письмо и почти полностью расшифрованное линейное письмо А минойской цивилизации 2000 г до н.э., сотни экзотических эмотиконов.

Общее количество символов в Unicode превысило 110 000 штук. Казалось бы, там уже есть все распространённые символы. Оказывается, это не так. До сих пор остались люди, которые не могут написать в Юникоде даже собственное имя. Им приходится прибегать к разным трюкам.

О своей проблеме рассказал индийский IT-специалист, имя которого мы не можем правильно напечатать, разве что в транслитерации: Адитья Мукереджи.
Читать полностью »

Можно ли верить коду в редакторе? bi-directional текст

2015-03-12 в 2:25, admin, рубрики: bi-directional, bidi, python, RLO, rm -rf, script, shell, Unicode, информационная безопасность, ненормальное программирование, обман зрения, Программирование

def maps():
	print "maps maps maps"

def spam():
	print "Erasing everything..."
	print "done."

Вы знаете, что если очень долго смотреть на следующую строку, то там останутся только три слова «spam»?

s = "spam‮" ,spam ,"‬spam"
s[1]()

Действительно, первая строка очень необычная. В целом, в результате этого кода будет выполнена зловредная функция spam.

Посмотреть на ideone. (Для тех кто не знает: там внизу есть вывод выполнившейся программы)
Читать полностью »

Проталкиваем не‐ASCII в непредназначенные для этого места

2015-01-28 в 19:23, admin, рубрики: bytes, pdbpp, pyrepl, python, python2, python2.6, python2.7, str, string, Unicode, ненормальное программирование

Сидел вечером дома, думал чем бы заняться. А: у Python есть отладчик, но в нём совершенно некрасивое приглашение ко вводу. Дай‐ка я впилю туда powerline. Дело казалось бы совершенно плёвое: нужно просто создать свой подкласс pdb.Pdb со своим свойством, да?

def use_powerline_prompt(cls):
    '''Decorator that installs powerline prompt to the class
    '''
    @property
    def prompt(self):
        try:
            powerline = self.powerline
        except AttributeError:
            powerline = PDBPowerline()
            powerline.setup(self)
            self.powerline = powerline
        return powerline.render(side='left')

    @prompt.setter
    def prompt(self, _):
        pass

    cls.prompt = prompt

    return cls

Читать полностью »

Информация

Комментарии

Рекомендуем