Рубрика «открытые данные»

Аналитический сервис Яндекс.Радар опубликовал рейтинг самых популярных среди россиян интернет-проектов. В топ вошли 10 000 крупнейших сайтов по количеству посетителей из России. Ресурсы можно фильтровать по тематикам, типам (агрегаторы, видео, интернет-магазины, соцсети и прочее) и данным пользователей (доход, полЧитать полностью »

Аналитический сервис Яндекс.Радар опубликовал рейтинг самых популярных среди россиян интернет-проектов. В топ вошли 10 000 крупнейших сайтов по количеству посетителей из России. Ресурсы можно фильтровать по тематикам, типам (агрегаторы, видео, интернет-магазины, соцсети и прочее) и данным пользователей (доход, полЧитать полностью »

Анализ публикаций Lenta.ru за 18 лет (с сентября 1999 по декабрь 2017 гг.) средствами python, sklearn, scipy, XGBoost, pymorphy2, nltk, gensim, MongoDB, Keras и TensorFlow.

Совершеннолетняя журналистика: от России до Кремля - 1

В исследовании использованы данные из поста «Анализируй это — Lenta.ru» пользователя ildarchegg. Автор любезно предоставил 3 гигабайта статей в удобном формате, и я решил, что это прекрасная возможность протестировать некоторые методы текстовой обработки. Заодно, если повезёт, узнать что-то новое о российской журналистике, обществе и вообще.

Читать полностью »

Исследователи изучили тексты более 1700 романов и обнаружили, что все их можно отнести к 6 сюжетным типам.

6 типовых сюжетов мировой литературы - 1

В своей лекции 1995 года американский романист Курт Воннегут рисовал на доске различные сюжетные линии, по ходу повествования иллюстрируя изменение положения главного героя по шкале «хорошо-плохо». Среди сюжетов были «загнанный в угол человек», в рамках которого главный герой попадает в беду и в итоге выбирается из нее, а также «парень добивается девушки», где герой получает нечто чудесное, теряет это и снова находит в конце. «Нет никаких препятствий к тому, чтобы загружать простые формы историй в компьютер, — заметил Воннегут. — Это прекрасные формы».

Благодаря новым технологиям интеллектуального анализа люди решили эту задачу. Профессор Мэтью Джокерс из Университета штата Вашингтон, а позже и исследователи из лаборатории компьютерных историй Вермонтского университета проанализировали тексты тысяч романов и выявили шесть основных типов историй — архетипов, — представляющих собой базовые структурные блоки для построения более сложных сюжетов. Вермонтские исследователи описали эти шесть форм повествования, лежащих в основе 1700 английских романов, следующим образом:

1. «Из грязи в князи» — постепенное улучшение положения от плохого к хорошему.
2. «Из князи в грязи» — падение от хорошего положения к плохому, трагедия.
3. «Икар» — взлет и падение.
4. «Эдип» — падение, взлет и снова падение.
5. «Золушка» — взлет, падение, взлет.
6. «Человек, загнанный в угол» — падение и взлет.

Исследователи применили анализ эмоциональной окраски — статистическую методику, часто используемую маркетологами для оценки публикаций в социальных СМИ.Читать полностью »

image

Хочу рассказать о проекте, который развивал последние пару лет. Называется он GeoPuzzle и представляет собой игру-паззл на политической карте мира. Цель — расставить кусочки-страны на свои места. Идея подсмотрена в статье «Головоломка Mercator для знатоков географии», также в детстве играл в тетрис из стран (ещё под DOS), но название программы уже не припомню. Я был настолько вдохновлён идеей, что захотел сделать полноценный продукт, интересный не только школьникам, но и знатокам географии. За развитием проекта можно наблюдать на GitHub.
Читать полностью »

image

Я всегда считал, что web для всех. Вот почему я и все остальные яростно сражаются, чтобы защитить его. Изменения, которых нам удалось добиться, создали лучший и более связанный мир. Но помимо всего хорошего, что мы достигли, сеть превратилась в двигатель несправедливости и разделения; на который оказывают влияние мощные силы, использующие его для своих собственных целей.

Сегодня я считаю, что мы достигли критического переломного момента, и это кардинальное изменение к лучшему возможно и необходимо.

Вот почему я в последние годы работал с несколькими людьми в Массачусетском технологическом институте и в других местах, чтобы разработать Solid, проект с открытым исходным кодом для восстановления власти и способности к действию отдельных лиц в web.

Solid изменяет текущую модель, где пользователи должны передавать персональные данные цифровым гигантам в обмен на субъективную стоимость. Как мы все выяснили, это не в наших интересах. Solid — это то, как мы развиваем web, чтобы восстановить равновесие — путем предоставления каждому из нас полного контроля над данными, личными или нет, революционным способом.Читать полностью »

«Яндекс» проводит закрытое тестирование нового инструмента — рейтинга самых популярных площадок Рунета или «Топ сайтов». Об этом пишут «Ведомости» со ссылкой на сотрудников нескольких медиакомпаний, которые принимают участие в тесте. В «Яндексе» подтвердили информацию и добавили, что это будет инструмент для всех игроков рынка. На рынке считают,Читать полностью »

Ботов отличать от людей и правда сложновато. Я и сам толком не могу это сделать. Но зато я придумал неплохой велоси... метод, как отличать в VK «интересных людей» от «не очень интересных». В плане сетевого общения, естественно, а не по жизни.

Выявление содержательных профилей в VK - 1


Читать полностью »

В прошлой статье я кратко рассказала о возможностях kepler.gl — нового Open Source инструмента для визуализации и анализа больших наборов гео-данных.

Варианты карт, созданных с помощью kepler.gl
Рисунок 1. Варианты карт, созданных с помощью kepler.gl (by Uber)

Данное веб-приложение позволяет за считанные минуты создать информативную, и что немаловажно, красочную интерактивную карту на основе произвольных наборов гео-данных. Однако, возникает вопрос что делать с ней дальше? Как поделиться полученными результатами с коллегами, друзьями или заказчиками?

Читать полностью »

Добрый день.

В открытом доступе наконец-то появился огромный справочник штрихкодов с наименованиями товаров, категориями и брендами.

Мы работаем над ним лет 8 и теперь в нем около 3 миллионов штрихкодов в стандартах EAN (EAN-13, EAN-8) и UPC (UPC-A, UPC-E).

Читать полностью »