Рубрика «Unicode» - 5

Несколько гиков добились своего

Как обычный вопрос на форуме привёл к добавлению 4½ символов в Юникод - 1

Оказывается, добавить символы в Юникод вполне реально, если потратить достаточно сил и времени. Следует только строго соблюдать процедуру и все правила.

Вчера произошло важное событие: консорциум Unicode опубликовал официальные спецификации нового стандарта Unicode 9.0. Наверное, больше всех радовался этому событию программист Теренс Иден (Terence Eden). Два с половиной года назад (3 декабря 2013 года) он опубликовал вопрос на популярном форуме для разработчиков Hacker News.

Каких полезных символов не хватает в Юникоде?

Теренс высказал идею, что наиболее очевидным кажется отсутствие знака «Питание». Знакомый всем символ Как обычный вопрос на форуме привёл к добавлению 4½ символов в Юникод - 2 определён в стандарте Международной электротехнической комиссии IEC 60417-5009 и примерно с середины 1970-х используется практически на каждом электронном устройстве, где имеется кнопка питания.
Читать полностью »

Принят стандарт Unicode 9.0 - 1

Консорциум Unicode объявил о выходе окончательной версии стандарта Unicode 9.0. В девятую версии Unicode добавлено ровно 7500 новых символов, так что общее количество письменных знаков достигло 128 172.

Уточнены и теперь стандартизированы шесть малоизвестных алфавитов, в том числе письмо американских индейцев и древнекитайское тангутское письмо — вымершая система иероглифов, которая использовалась в государстве Си Ся.

Многие считают, что эмодзи играют всё более важную роль в коммуникациях, поэтому эксперты консорциума Unicode постарались расширить стандартный набор пиктограмм. Всего в стандарт добавлено 72 новых эмодзи.
Читать полностью »

image В нашу жизнь уже давно вошли эмодзи. И в социальных сетях, и во всевозможных мессенджерах мы используем их не задумываясь, выражая свои эмоции всего одним символом. Но для кроссплатформенного приложения отправка и отображение эмодзи — непростая задача. Проблема заключается в том, что отправленные эмодзи с мобильных приложений не всегда отображаются корректно на веб-сайтах.

Последние версии iOS и Android имеют поддержку более 1200 символов эмодзи, но «десктопный» рынок не может похвастаться такими успехами. Мы же в Badoo хотим и делаем все, чтобы пользователям было комфортно общаться на всех платформах, не имея никаких ограничений в переписке.
Далее я расскажу, каким способом мы добились 100% поддержки эмодзи для веба.
Читать полностью »

Регулярные выражения в JavaScript понемногу догоняют PCRE.

Недавно упомянутая возможность lookbehind перешла на стадию флага --es_staging.

Разработчики V8 также начали добавлять в регулярные выражения свойства Юникода (см. общее описание и спецификацию этой характеристики символов).

В продвижении lookbehind и character properties, на мой взгляд, есть две разницы: первая возможность вводит совсем немного нового синтаксиса по сравнению со второй, зато вторая меньше изменяет поведение всего процесса (сравните количество затрагиваемых изменениями файлов в исходниках V8 по двум упомянутым ссылкам). По сути, свойства Юникода — всего лишь удобные сокращения, синонимы для разных групп codepoint-ов, поэтому от них можно ожидать минимум подвохов при интеграции в систему.

Конечно, обе возможности не советуют применять в продукции (кроме Google Chrome, они нигде в браузерах не реализованы, а Node.js только-только переходит на соответствующую им версию V8, в которой они всё равно пока под флагами).

Но для личных нужд (утилиты по обработке текста и т.д.), мне кажется, они вполне применимы. Возможно, коду разработчиков V8, даже экспериментальному, можно порой доверять с ничуть не большим риском, чем разнообразным библиотекам на npmjs или GitHub.Читать полностью »

image

Инициативная группа товарищей Emojination ратует за включение в обширный список эмодзи-иконок, уже присутствующих в стандарте Unicode, схематического изображения пельмешка. Группа запустила краудфандинговую кампанию «The Dumpling Emoji Project» по сбору средств для этой благородной цели и уже набрала более $11000 при заявленной необходимости в $3750.

Аналоги пельменей есть практически во всех кухнях мира. Вареники (в Польше они называются "pierogi"), равиоли, хинкали, эмпанада, цзяоцзы… Но, как описано в «пельменной» кампании по сбору средств, эмодзи для пиццы, гамбургера и тако – есть, а для пельменей – нет. Исправлять эту несправедливость планируется, войдя в состав комитета, утверждающего расширение стандарта Unicode.

Эта привилегия стоит $2500 в год – для членов, не имеющих права голоса (за право голосовать необходимо отдавать $18000 в год, и этим пользуются всего 11 членов комитета).
Читать полностью »

Финляндия первой в мире выпустила «национальные» эмодзи - 1

Финляндия стала первой страной в мире, которая выпустила «национальный» набор эмодзи — несколько маленьких пиктограмм для общения в чате. Выбор пиктограмм сугубо специфичный для этой северной страны: голые мужчина и женщина в сауне (пиктограмма «Сауна»), поклонник музыки в стиле «металл» (пиктограмма «Металлист») и легендарный телефон Nokia 3310 (пиктограмма «Небьющийся»).
Читать полностью »

Mimic: вредоносный скрипт, который портит нервы программистам - 1Участники российских государственных тендеров раньше применяли маленькую хитрость: заказчик и поставщик заранее договариваются о сделке. Затем в условиях тендера на открытом сайте некоторые кириллические символы заменяют на латинские, чтобы конкурент не нашёл тендер с помощью поиска.

Такой же способ используют авторы вредоносного скрипта Mimic, но с другой целью: испоганить программный код таким способом, что он не будет компилироваться, вызовет сотни синтаксических ошибок, а программист не сможет понять, в чём дело.

Например, в коде C# обычный символ точки с запятой (;) заменяется на греческий вопросительный знак (;). Подло, зато эффективно.
Читать полностью »

Казалось бы, в Юникод включили уже все возможные и невозможные символы. В последней версии Unicode 7.0 добавлено 23 новых письменности, включая древнепермское письмо и почти полностью расшифрованное линейное письмо А минойской цивилизации 2000 г до н.э., сотни экзотических эмотиконов.

Общее количество символов в Unicode превысило 110 000 штук. Казалось бы, там уже есть все распространённые символы. Оказывается, это не так. До сих пор остались люди, которые не могут написать в Юникоде даже собственное имя. Им приходится прибегать к разным трюкам.

О своей проблеме рассказал индийский IT-специалист, имя которого мы не можем правильно напечатать, разве что в транслитерации: Адитья Мукереджи.
Читать полностью »

def maps():
	print "maps maps maps"

def spam():
	print "Erasing everything..."
	print "done."

Вы знаете, что если очень долго смотреть на следующую строку, то там останутся только три слова «spam»?

s = "spam‮" ,spam ,"‬spam"
s[1]()

Действительно, первая строка очень необычная. В целом, в результате этого кода будет выполнена зловредная функция spam.

Посмотреть на ideone. (Для тех кто не знает: там внизу есть вывод выполнившейся программы)
Читать полностью »

Сидел вечером дома, думал чем бы заняться. А: у Python есть отладчик, но в нём совершенно некрасивое приглашение ко вводу. Дай‐ка я впилю туда powerline. Дело казалось бы совершенно плёвое: нужно просто создать свой подкласс pdb.Pdb со своим свойством, да?

def use_powerline_prompt(cls):
    '''Decorator that installs powerline prompt to the class
    '''
    @property
    def prompt(self):
        try:
            powerline = self.powerline
        except AttributeError:
            powerline = PDBPowerline()
            powerline.setup(self)
            self.powerline = powerline
        return powerline.render(side='left')

    @prompt.setter
    def prompt(self, _):
        pass

    cls.prompt = prompt

    return cls

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js