Рубрика «открытые данные»

Ботов отличать от людей и правда сложновато. Я и сам толком не могу это сделать. Но зато я придумал неплохой велоси... метод, как отличать в VK «интересных людей» от «не очень интересных». В плане сетевого общения, естественно, а не по жизни.

Выявление содержательных профилей в VK - 1


Читать полностью »

В прошлой статье я кратко рассказала о возможностях kepler.gl — нового Open Source инструмента для визуализации и анализа больших наборов гео-данных.

Варианты карт, созданных с помощью kepler.gl
Рисунок 1. Варианты карт, созданных с помощью kepler.gl (by Uber)

Данное веб-приложение позволяет за считанные минуты создать информативную, и что немаловажно, красочную интерактивную карту на основе произвольных наборов гео-данных. Однако, возникает вопрос что делать с ней дальше? Как поделиться полученными результатами с коллегами, друзьями или заказчиками?

Читать полностью »

Добрый день.

В открытом доступе наконец-то появился огромный справочник штрихкодов с наименованиями товаров, категориями и брендами.

Мы работаем над ним лет 8 и теперь в нем около 3 миллионов штрихкодов в стандартах EAN (EAN-13, EAN-8) и UPC (UPC-A, UPC-E).

Читать полностью »

Дисклеймер: да, я пытался связаться с разработчиками. Нет, ответа не было. «Дыре» скорее всего столько же лет, сколько и их мобильному приложению, и возможно ей уже давно кто-то пользуется. И я до конца не понимаю, это везде декларируется как фича, просто никто не думал, что можно батчем начислить 2.4 миллионам обслуживаемых абонентов рандомные расходы по счетчикам. Ну и получить их ФИОадрес, как минимум. Может и правда, ничего такого в этом нет. А может, просто пока Рублевка и другие интересные места не обслуживаются ими, но скоро будут. И тогда врядли жители этих мест порадуются, что можно будет хоть на карте с аватарками их показать.

Предыстория: коллега живет в Московской области, скачал себе приложение, указал свой ЛС счет (который печатается на квиточке), а потом то ли ошибся, то ли тупо попробовал указать счет на +1 больше. Автоинкремент типа. И получил вместо своей 57-ой квартиры — следующую, 58ую.
Читать полностью »

Несколько месяцев назад вышла первая версия Kepler.gl — нового Open Source инструмента для визуализации и анализа больших наборов гео-данных.

В этой статье я предлагаю вам познакомится с основными возможностями приложения и создать с его помощью две картографические визуализации, которые позволят нам узнать несколько интересных фатов о платных парковках Москвы.

Как создать карту московских парковок с помощью Kepler.gl - 1

Но сперва несколько слов о том, кто и зачем создал Kepler.gl

Читать полностью »

Сегодня была анонсирована бета версия онлайн-игры WikiBest, которая является частью научных исследований в области качества данных в Википедии. Примечательно, что в настоящее время игра позволяет сравнивать качество данных в 5 языковых версиях Википедии: русский, украинский, белорусский, польский, английский. В скором будущем планируется расширить количество языков.

image
Читать полностью »

fig0

В свежем номере журнала The Lancet опубликована моя статья — любопытная карта и небольшое к ней пояснение. Решил рассказать об этом на Хабре, поскольку есть надежда, что реализованный способ визуализации данных может пригодиться еще кому-то.

Kashnitsky, I., & Schöley, J. (2018). Regional population structures at a glance. The Lancet, 392(10143), 209–210. https://doi.org/10.1016/S0140-6736(18)31194-2

Собственно, вот карта в высоком разрешении (кликабельно).

fig1

Карту можно воспроизвести точь-в-точь за несколько минут, код на гитхабе.

Данные создают цвета

Читать полностью »

Мы рады рассказать вам о том, что наши коллеги из подразделения Microsoft Research опубликовали данные, полученные в результате многолетних трудов по курированию и изучению информации из научных работ. В частности, стали доступны данные по инженерии, компьютерным наукам, информатике, математике, физике, биологии, социальным и естественным наукам. Подробнее под катом!

Базы данных Microsoft Research теперь доступны для всех - 1Читать полностью »

Боремся с ошибками и «костылями» в ЕГРЮЛ — госреестре юридических лиц - 1

На прошлой неделе мы выпустили статью про устройство ЕГРЮЛ — госреестра с данными 10 миллионов компаний. Тот материал рассказывает о базовых вещах, поэтому начать лучше с него.

Здесь же мы раскроем богатую и благодатную тему — проблемы ЕГРЮЛа, которые не дают нашим разработчикам заскучать.
Читать полностью »

Как устроен ЕГРЮЛ — единый госреестр юридических лиц - 1

ЕГРЮЛ — это государственный реестр юридических лиц, в котором хранятся данные 10 миллионов российских компаний. Управляет справочником ФНС.

Из ЕГРЮЛ мы берем данные организаций для «Подсказок», «Единого клиента» и «Фактора». В статье расскажем, как мы жили до справочника, как получаем к нему доступ и как с ним работаем.
Читать полностью »