Рубрика «открытые данные»

Граф сообщества «Что? Где? Когда?» (ЧГК) или сколько рукопожатий до Друзя? - 1

Привет!

Новогодние праздники — отличное время, чтобы отдохнуть от IT использовать профессиональные навыки в любимом хобби. Ковыряясь на сайте рейтинга спортивного ЧГК, я обнаружил отличный API, позволяющий получить данные о всех играх всех турниров. Так у меня появилась идея построить граф сообщества знатоков и проверить теорию шести рукопожатий на географически разбросанном и строго оффлайновом коммьюнити. Под катом картинки графов и бесполезная статистика.

Читать полностью »

Не один год я увлекаюсь генеалогией. Практической пользы в этом хобби нет, но интересного очень много. Здесь я хотел поделиться накопленным опытом, частью интересных сведений, не сильно погружаясь в персональные истории. Чтобы текст сильно не распухал, расскажу всего 2 кейса: поиск в военных архивах на основе данных онлайн-баз и продолжительный просмотр и анализ метрических книг одного села периода конца XIX — начала XX вв. вплоть до конца революции и гражданской войны.

Изучение метрических книг, запросы в далекие архивы обычной и электронной почтой, личные походы в архивы, исследование открытых баз в интернете и другие виды поисков дают богатый материал. Иногда поиск и находки похожи на настоящий детектив, только все события были далеко в прошлом.
Осознаю, что некоторым тема публикации может показаться далекой от IT, но в процессе у меня было и программирование, VBA-скриптинг, SQL, и впереди, надеюсь, MLDSAI.

Генеалогические исследования — метрические книги, переписи, архивы, открытые базы - 1
Страница метрической книги, рождения в 1898 г. Еще в книгах записывались браки и смерти — до появления ЗАГСов в начале 1920х

Читать полностью »

Switch2OSM на русском - 1

Дорогие друзья, не так давно мы с Александром Зейналовым перевели сайт Switch2OSM и разместили его русскую версию по адресу use.openstreetmap.ru.

В нем есть два раздела — "Уже на OSM" и "Провайдеры", в которых, как нам кажется, должно быть гораздо больше информации о российских проектах, использующих OSM, либо компаниях, помогающим другим переходить и работать с его данными. Поэтому, если вы знаете о таких, пожалуйста, сообщите нам — мы готовы их упомянуть на этом сайте.Читать полностью »

14 марта 2017 года в лектории BBDO выступил Артур Хачуян, генеральный директор Social Data Hub. Артур рассказал про интеллектуальный мониторинг, построение поведенческих моделей, распознавание фото- и видеоконтента, а также о других инструментах и исследованиях Social Data Hub, которые позволяют таргетировать аудиторию, используя социальные сети и технологии Big Data.

Артур Хачуян: «Настоящая Big Data в рекламе» - 1Читать полностью »

Обычно в преддверии Нового года мы обновляем наш датасет по Открытой семантике. В этом году было сделано много работы, но она не подошла к логическому завершению и мы продолжим её в следующем году. Сейчас же мы хотим рассказать о не менее важном открытом датасете, вызвавшим живой интерес на ряде лингвистических конференций этого года, как по стороны исследователей, так и со стороны представителей индустрии. Речь в посте пойдёт об открытом тональном словаре русского языка.

Новогодний датасет 2019: открытый тональный словарь русского языка - 1
Читать полностью »

Мы все хорошо знаем, что чем больше информации, тем меньше слухов.
Открытые данные — открытая страна.
Читать полностью »

Мой коллега Рафаэль Григорян eegdude недавно написал статью о том, зачем человечеству потребовалась ЭЭГ и какие значимые явления могут быть зарегистрированы в ней. Сегодня в продолжение темы нейроинтерфейсов мы используем один из открытых датасетов, записанных на игре, использующей механику P300, чтобы визуализировать сигнал ЭЭГ, посмотреть структуру вызванных потеницалов, построить основные классификаторы, оценить качество, с которым мы можем предсказать наличие такого вызыванного потенциала.

Напомню, что P300 — это вызванный потенциал (ВП), специфический отклик мозга связанный с принятием решений и и различением стимулов (что он из себя представляет мы увидим ниже). Обычно он используется для построения современных BCI.

Простой классификатор P300 на открытых данных - 1

Для того, чтобы заняться классификацией ЭЭГ, можно позвать друзей, написать игру про Енотов и Демонов в VR, записать собственные реакции и написать научную статью (об этом я расскажу как-нибудь в другой раз), но по счастью, учёные со всего мира уже провели некоторые эксперименты за нас и осталось только скачать данные.

Разбор способа построения нейроинтерфейса на P300 с пошаговым кодом и визуализациями, а также ссылку на репозиторий можно найти под катом.

Читать полностью »

Если спросить сегодня российского школьника или студента о том, что он знает об истории космонавтики, то уверен, ничего кроме имени Юрия Гагарина мы не услышим. Несколько человек, вполне возможно, вспомнят о Королеве, Международной космической станции или произнесут «Поехали» и «Мы первые!», и на этом все, знания закончатся. Читать полностью »

Всем привет, меня зовут Александр, и я data scientist в компании Clain. Мы занимаемся анализом блокчейн транзакций на предмет их аффилированности к преступным действиям, таким, как обналичка, кражи, финансирование терроризма и подобное.

Регуляторки по криптовалютам ужесточаются с каждым годом, и сейчас компании обязаны соответствовать политикам AML KYC. Примерно этим же занимается компания Elliptic, которая в начале августа 2019 года опубликовала размеченный датасет из 200к биткойн транзакций.

Читать полностью »

image

В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.

Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js