Расскажу вам о проекте “Карта ДТП” – интерактивной карте аварий в России. Карта упрощает анализ ДТП и помогает найти реальные причины происшествий. Как пришла идея, где брали данные и зачем открыли исходный код.
Рубрика «открытые данные»
Карта ДТП
2019-02-03 в 19:54, admin, рубрики: django, Leaflet, open source, python, python 3, ReactJS, vision zero, Геоинформационные сервисы, Гибдд, ДТП, карта, краудфандинг, открытые данныеДанные бывают смешными (и вот примеры)
2018-12-28 в 11:17, admin, рубрики: адреса, Блог компании HFLabs, данные, данные юрлиц, ЕГРЮЛ, открытые данные, топонимы, ФИАС, Читальный зал, юмор, юмор на хабре, юрлицаМы в HFLabs перелопачиваем колоссальное количество данных: адреса, ФИО, реквизиты компаний, документы. Весь год писали о сложных и полезных штуках, но пора и честь знать. Перед праздниками — подборка смешных данных, что нам принес 2018-й.
Читать полностью »
Новогодний датасет 2018: открытая семантика русского языка
2018-12-25 в 8:40, admin, рубрики: natural language processing, естественный язык, лингвистика, машинное обучение, открытые данные, Семантика, семантическая разметка, сентимент-анализ, ЭмоцииОткрытая семантика русского языка, об истории создания которой вы можете прочитать здесь и здесь, получила большое обновление. Мы собрали достаточное количество данных, чтобы применить поверх собранной разметки машинное обучение и построить семантическую модель языка. Что из этого получилось смотрите под катом.
Евросоюз планирует обеспечить бесплатный доступ к научным работам, но против выступают даже некоторые ученые
2018-11-26 в 13:49, admin, рубрики: CrossOver, paywall, sci-hub, Блог компании Crossover, копирайт, наука, Научно-популярное, научные публикации, научные статьи, открытые данные, прогресс
Ежегодный объем рынка платного доступа к научным публикациям оценивается в 25 млрд долларов
Политика современных научных изданий по закрытию доступа к научным публикациям пейволлом давно является причиной споров в обществе. С одной стороны утверждается, что ограничение доступа к научному знанию — непозволительно в условиях всеобщей свободной циркуляции информации. С другой стороны говорится, что институт публикации, вычитки и рецензирования научных работ профессиональными издателями необходим для того, чтобы отсеивать нерелевантные, подтасованные и просто ненастоящие исследования от реальных научных работ. Доходит до абсурда: частные научные издания получают прибыль от публикации исследований, которые проводятся за деньги налогоплательщиков.
Фактически, сейчас наука (в виде публикаций работ) находится под «сапогом» у издателей профильных журналов, которые являются единственными получателями выгоды в сложившейся ситуации. Проблема закрытых научных публикаций стала настолько острой, что на это обратили внимание даже государственные органы, конкретно — Европейский центр политических стратегий при комиссии Евросоюза. Против сокрытия научных работ от широкой общественности высказывался целый ряд ученых на протяжении последних десятилетий.
Еврокомиссар Карлос Моидас, представители научного сообщества ЕС и организации Science Europe выработали «Plan S». Суть его крайне проста: все научные исследования, которые будут финансироваться из государственных бюджетов стран ЕС или фондов Евросоюза, должны быть общедоступными уже с 1 января 2020 года.
Читать полностью »
Хватит кормить издателей. ЕС разрабатывает правила обязательного бесплатного доступа к научным работам
2018-11-26 в 13:49, admin, рубрики: CrossOver, paywall, sci-hub, Блог компании Crossover, копирайт, наука, Научно-популярное, научные публикации, научные статьи, открытые данные, прогресс
Ежегодный объем рынка платного доступа к научным публикациям оценивается в 25 млрд долларов
Политика современных научных изданий по закрытию доступа к научным публикациям пейволлом давно является причиной споров в обществе. С одной стороны утверждается, что ограничение доступа к научному знанию — непозволительно в условиях всеобщей свободной циркуляции информации. С другой стороны говорится, что институт публикации, вычитки и рецензирования научных работ профессиональными издателями необходим для того, чтобы отсеивать нерелевантные, подтасованные и просто ненастоящие исследования от реальных научных работ. Доходит до абсурда: частные научные издания получают прибыль от публикации исследований, которые проводятся за деньги налогоплательщиков.
Фактически, сейчас наука (в виде публикаций работ) находится под «сапогом» у издателей профильных журналов, которые являются единственными получателями выгоды в сложившейся ситуации. Проблема закрытых научных публикаций стала настолько острой, что на это обратили внимание даже государственные органы, конкретно — Европейский центр политических стратегий при комиссии Евросоюза. Против сокрытия научных работ от широкой общественности высказывался целый ряд ученых на протяжении последних десятилетий.
Еврокомиссар Карлос Моидас, представители научного сообщества ЕС и организации Science Europe выработали «Plan S». Суть его крайне проста: все научные исследования, которые будут финансироваться из государственных бюджетов стран ЕС или фондов Евросоюза, должны быть общедоступными уже с 1 января 2020 года.
Читать полностью »
«Яндекс» захотел отнять хлеб у Mediascope и опубликовал рейтинг самых популярных интернет-проектов в России
2018-11-12 в 12:17, admin, рубрики: Mediascope / TNS, аналитика, запуск, Интернет-реклама, открытые данные, статистика, Текучка, яндекс, яндекс.браузер, метки: Mediascope / TNS, аналитика, запуск, интернет-реклама, открытые данные, статистика, Текучка, яндекс, яндекс.браузерАналитический сервис Яндекс.Радар опубликовал рейтинг самых популярных среди россиян интернет-проектов. В топ вошли 10 000 крупнейших сайтов по количеству посетителей из России. Ресурсы можно фильтровать по тематикам, типам (агрегаторы, видео, интернет-магазины, соцсети и прочее) и данным пользователей (доход, полЧитать полностью »
«Яндекс» строит свою аналитику рекламных площадок и статистику рынка
2018-11-12 в 12:17, admin, рубрики: Mediascope / TNS, аналитика, запуск, Интернет-реклама, Медиа, открытые данные, статистика, Текучка, яндекс, яндекс.браузер, метки: Mediascope / TNS, аналитика, запуск, интернет-реклама, медиа, открытые данные, статистика, Текучка, яндекс, яндекс.браузерАналитический сервис Яндекс.Радар опубликовал рейтинг самых популярных среди россиян интернет-проектов. В топ вошли 10 000 крупнейших сайтов по количеству посетителей из России. Ресурсы можно фильтровать по тематикам, типам (агрегаторы, видео, интернет-магазины, соцсети и прочее) и данным пользователей (доход, полЧитать полностью »
Совершеннолетняя журналистика: от России до Кремля
2018-11-10 в 5:36, admin, рубрики: data engineering, data mining, data science, python, text mining, открытые данныеАнализ публикаций Lenta.ru за 18 лет (с сентября 1999 по декабрь 2017 гг.) средствами python, sklearn, scipy, XGBoost, pymorphy2, nltk, gensim, MongoDB, Keras и TensorFlow.
В исследовании использованы данные из поста «Анализируй это — Lenta.ru» пользователя ildarchegg. Автор любезно предоставил 3 гигабайта статей в удобном формате, и я решил, что это прекрасная возможность протестировать некоторые методы текстовой обработки. Заодно, если повезёт, узнать что-то новое о российской журналистике, обществе и вообще.
6 типовых сюжетов мировой литературы
2018-11-01 в 13:26, admin, рубрики: bbc, Wirex, Блог компании Wirex, интеллектуальный анализ данных, литература, литература художественная, машинный анализ текстов, открытые данные, сюжет, типы текста, Читальный зал, эмоциональный интеллектИсследователи изучили тексты более 1700 романов и обнаружили, что все их можно отнести к 6 сюжетным типам.

В своей лекции 1995 года американский романист Курт Воннегут рисовал на доске различные сюжетные линии, по ходу повествования иллюстрируя изменение положения главного героя по шкале «хорошо-плохо». Среди сюжетов были «загнанный в угол человек», в рамках которого главный герой попадает в беду и в итоге выбирается из нее, а также «парень добивается девушки», где герой получает нечто чудесное, теряет это и снова находит в конце. «Нет никаких препятствий к тому, чтобы загружать простые формы историй в компьютер, — заметил Воннегут. — Это прекрасные формы».
Благодаря новым технологиям интеллектуального анализа люди решили эту задачу. Профессор Мэтью Джокерс из Университета штата Вашингтон, а позже и исследователи из лаборатории компьютерных историй Вермонтского университета проанализировали тексты тысяч романов и выявили шесть основных типов историй — архетипов, — представляющих собой базовые структурные блоки для построения более сложных сюжетов. Вермонтские исследователи описали эти шесть форм повествования, лежащих в основе 1700 английских романов, следующим образом:
1. «Из грязи в князи» — постепенное улучшение положения от плохого к хорошему.
2. «Из князи в грязи» — падение от хорошего положения к плохому, трагедия.
3. «Икар» — взлет и падение.
4. «Эдип» — падение, взлет и снова падение.
5. «Золушка» — взлет, падение, взлет.
6. «Человек, загнанный в угол» — падение и взлет.
Исследователи применили анализ эмоциональной окраски — статистическую методику, часто используемую маркетологами для оценки публикаций в социальных СМИ.Читать полностью »
GeoPuzzle — собери мир по кусочкам
2018-11-01 в 5:50, admin, рубрики: geopuzzle, Google Maps, mercator, open source, open street map, postgis, Геоинформационные сервисы, открытые данные, Программирование, Разработка веб-сайтовХочу рассказать о проекте, который развивал последние пару лет. Называется он GeoPuzzle и представляет собой игру-паззл на политической карте мира. Цель — расставить кусочки-страны на свои места. Идея подсмотрена в статье «Головоломка Mercator для знатоков географии», также в детстве играл в тетрис из стран (ещё под DOS), но название программы уже не припомню. Я был настолько вдохновлён идеей, что захотел сделать полноценный продукт, интересный не только школьникам, но и знатокам географии. За развитием проекта можно наблюдать на GitHub.
Читать полностью »