Рубрика «открытые данные»

image

Расскажу вам о проекте “Карта ДТП” – интерактивной карте аварий в России. Карта упрощает анализ ДТП и помогает найти реальные причины происшествий. Как пришла идея, где брали данные и зачем открыли исходный код.

За 2018 год в ДТП на дорогах России погибли 19088 человек

Читать полностью »

Данные бывают смешными (и вот примеры) - 1

Мы в HFLabs перелопачиваем колоссальное количество данных: адреса, ФИО, реквизиты компаний, документы. Весь год писали о сложных и полезных штуках, но пора и честь знать. Перед праздниками — подборка смешных данных, что нам принес 2018-й.
Читать полностью »

Открытая семантика русского языка, об истории создания которой вы можете прочитать здесь и здесь, получила большое обновление. Мы собрали достаточное количество данных, чтобы применить поверх собранной разметки машинное обучение и построить семантическую модель языка. Что из этого получилось смотрите под катом.

Новогодний датасет 2018: открытая семантика русского языка - 1
Читать полностью »

Евросоюз планирует обеспечить бесплатный доступ к научным работам, но против выступают даже некоторые ученые - 1
Ежегодный объем рынка платного доступа к научным публикациям оценивается в 25 млрд долларов

Политика современных научных изданий по закрытию доступа к научным публикациям пейволлом давно является причиной споров в обществе. С одной стороны утверждается, что ограничение доступа к научному знанию — непозволительно в условиях всеобщей свободной циркуляции информации. С другой стороны говорится, что институт публикации, вычитки и рецензирования научных работ профессиональными издателями необходим для того, чтобы отсеивать нерелевантные, подтасованные и просто ненастоящие исследования от реальных научных работ. Доходит до абсурда: частные научные издания получают прибыль от публикации исследований, которые проводятся за деньги налогоплательщиков.

Фактически, сейчас наука (в виде публикаций работ) находится под «сапогом» у издателей профильных журналов, которые являются единственными получателями выгоды в сложившейся ситуации. Проблема закрытых научных публикаций стала настолько острой, что на это обратили внимание даже государственные органы, конкретно — Европейский центр политических стратегий при комиссии Евросоюза. Против сокрытия научных работ от широкой общественности высказывался целый ряд ученых на протяжении последних десятилетий.

Еврокомиссар Карлос Моидас, представители научного сообщества ЕС и организации Science Europe выработали «Plan S». Суть его крайне проста: все научные исследования, которые будут финансироваться из государственных бюджетов стран ЕС или фондов Евросоюза, должны быть общедоступными уже с 1 января 2020 года.
Читать полностью »

Хватит кормить издателей. ЕС разрабатывает правила обязательного бесплатного доступа к научным работам - 1
Ежегодный объем рынка платного доступа к научным публикациям оценивается в 25 млрд долларов

Политика современных научных изданий по закрытию доступа к научным публикациям пейволлом давно является причиной споров в обществе. С одной стороны утверждается, что ограничение доступа к научному знанию — непозволительно в условиях всеобщей свободной циркуляции информации. С другой стороны говорится, что институт публикации, вычитки и рецензирования научных работ профессиональными издателями необходим для того, чтобы отсеивать нерелевантные, подтасованные и просто ненастоящие исследования от реальных научных работ. Доходит до абсурда: частные научные издания получают прибыль от публикации исследований, которые проводятся за деньги налогоплательщиков.

Фактически, сейчас наука (в виде публикаций работ) находится под «сапогом» у издателей профильных журналов, которые являются единственными получателями выгоды в сложившейся ситуации. Проблема закрытых научных публикаций стала настолько острой, что на это обратили внимание даже государственные органы, конкретно — Европейский центр политических стратегий при комиссии Евросоюза. Против сокрытия научных работ от широкой общественности высказывался целый ряд ученых на протяжении последних десятилетий.

Еврокомиссар Карлос Моидас, представители научного сообщества ЕС и организации Science Europe выработали «Plan S». Суть его крайне проста: все научные исследования, которые будут финансироваться из государственных бюджетов стран ЕС или фондов Евросоюза, должны быть общедоступными уже с 1 января 2020 года.
Читать полностью »

Аналитический сервис Яндекс.Радар опубликовал рейтинг самых популярных среди россиян интернет-проектов. В топ вошли 10 000 крупнейших сайтов по количеству посетителей из России. Ресурсы можно фильтровать по тематикам, типам (агрегаторы, видео, интернет-магазины, соцсети и прочее) и данным пользователей (доход, полЧитать полностью »

Аналитический сервис Яндекс.Радар опубликовал рейтинг самых популярных среди россиян интернет-проектов. В топ вошли 10 000 крупнейших сайтов по количеству посетителей из России. Ресурсы можно фильтровать по тематикам, типам (агрегаторы, видео, интернет-магазины, соцсети и прочее) и данным пользователей (доход, полЧитать полностью »

Анализ публикаций Lenta.ru за 18 лет (с сентября 1999 по декабрь 2017 гг.) средствами python, sklearn, scipy, XGBoost, pymorphy2, nltk, gensim, MongoDB, Keras и TensorFlow.

Совершеннолетняя журналистика: от России до Кремля - 1

В исследовании использованы данные из поста «Анализируй это — Lenta.ru» пользователя ildarchegg. Автор любезно предоставил 3 гигабайта статей в удобном формате, и я решил, что это прекрасная возможность протестировать некоторые методы текстовой обработки. Заодно, если повезёт, узнать что-то новое о российской журналистике, обществе и вообще.

Читать полностью »

Исследователи изучили тексты более 1700 романов и обнаружили, что все их можно отнести к 6 сюжетным типам.

6 типовых сюжетов мировой литературы - 1

В своей лекции 1995 года американский романист Курт Воннегут рисовал на доске различные сюжетные линии, по ходу повествования иллюстрируя изменение положения главного героя по шкале «хорошо-плохо». Среди сюжетов были «загнанный в угол человек», в рамках которого главный герой попадает в беду и в итоге выбирается из нее, а также «парень добивается девушки», где герой получает нечто чудесное, теряет это и снова находит в конце. «Нет никаких препятствий к тому, чтобы загружать простые формы историй в компьютер, — заметил Воннегут. — Это прекрасные формы».

Благодаря новым технологиям интеллектуального анализа люди решили эту задачу. Профессор Мэтью Джокерс из Университета штата Вашингтон, а позже и исследователи из лаборатории компьютерных историй Вермонтского университета проанализировали тексты тысяч романов и выявили шесть основных типов историй — архетипов, — представляющих собой базовые структурные блоки для построения более сложных сюжетов. Вермонтские исследователи описали эти шесть форм повествования, лежащих в основе 1700 английских романов, следующим образом:

1. «Из грязи в князи» — постепенное улучшение положения от плохого к хорошему.
2. «Из князи в грязи» — падение от хорошего положения к плохому, трагедия.
3. «Икар» — взлет и падение.
4. «Эдип» — падение, взлет и снова падение.
5. «Золушка» — взлет, падение, взлет.
6. «Человек, загнанный в угол» — падение и взлет.

Исследователи применили анализ эмоциональной окраски — статистическую методику, часто используемую маркетологами для оценки публикаций в социальных СМИ.Читать полностью »

image

Хочу рассказать о проекте, который развивал последние пару лет. Называется он GeoPuzzle и представляет собой игру-паззл на политической карте мира. Цель — расставить кусочки-страны на свои места. Идея подсмотрена в статье «Головоломка Mercator для знатоков географии», также в детстве играл в тетрис из стран (ещё под DOS), но название программы уже не припомню. Я был настолько вдохновлён идеей, что захотел сделать полноценный продукт, интересный не только школьникам, но и знатокам географии. За развитием проекта можно наблюдать на GitHub.
Читать полностью »