Аналитический сервис Яндекс.Радар опубликовал рейтинг самых популярных среди россиян интернет-проектов. В топ вошли 10 000 крупнейших сайтов по количеству посетителей из России. Ресурсы можно фильтровать по тематикам, типам (агрегаторы, видео, интернет-магазины, соцсети и прочее) и данным пользователей (доход, полЧитать полностью »
Рубрика «открытые данные» - 10
«Яндекс» строит свою аналитику рекламных площадок и статистику рынка
2018-11-12 в 12:17, admin, рубрики: Mediascope / TNS, аналитика, запуск, Интернет-реклама, Медиа, открытые данные, статистика, Текучка, яндекс, яндекс.браузер, метки: Mediascope / TNS, аналитика, запуск, интернет-реклама, медиа, открытые данные, статистика, Текучка, яндекс, яндекс.браузерСовершеннолетняя журналистика: от России до Кремля
2018-11-10 в 5:36, admin, рубрики: data engineering, data mining, data science, python, text mining, открытые данныеАнализ публикаций Lenta.ru за 18 лет (с сентября 1999 по декабрь 2017 гг.) средствами python, sklearn, scipy, XGBoost, pymorphy2, nltk, gensim, MongoDB, Keras и TensorFlow.
В исследовании использованы данные из поста «Анализируй это — Lenta.ru» пользователя ildarchegg. Автор любезно предоставил 3 гигабайта статей в удобном формате, и я решил, что это прекрасная возможность протестировать некоторые методы текстовой обработки. Заодно, если повезёт, узнать что-то новое о российской журналистике, обществе и вообще.
6 типовых сюжетов мировой литературы
2018-11-01 в 13:26, admin, рубрики: bbc, Wirex, Блог компании Wirex, интеллектуальный анализ данных, литература, литература художественная, машинный анализ текстов, открытые данные, сюжет, типы текста, Читальный зал, эмоциональный интеллектИсследователи изучили тексты более 1700 романов и обнаружили, что все их можно отнести к 6 сюжетным типам.
В своей лекции 1995 года американский романист Курт Воннегут рисовал на доске различные сюжетные линии, по ходу повествования иллюстрируя изменение положения главного героя по шкале «хорошо-плохо». Среди сюжетов были «загнанный в угол человек», в рамках которого главный герой попадает в беду и в итоге выбирается из нее, а также «парень добивается девушки», где герой получает нечто чудесное, теряет это и снова находит в конце. «Нет никаких препятствий к тому, чтобы загружать простые формы историй в компьютер, — заметил Воннегут. — Это прекрасные формы».
Благодаря новым технологиям интеллектуального анализа люди решили эту задачу. Профессор Мэтью Джокерс из Университета штата Вашингтон, а позже и исследователи из лаборатории компьютерных историй Вермонтского университета проанализировали тексты тысяч романов и выявили шесть основных типов историй — архетипов, — представляющих собой базовые структурные блоки для построения более сложных сюжетов. Вермонтские исследователи описали эти шесть форм повествования, лежащих в основе 1700 английских романов, следующим образом:
1. «Из грязи в князи» — постепенное улучшение положения от плохого к хорошему.
2. «Из князи в грязи» — падение от хорошего положения к плохому, трагедия.
3. «Икар» — взлет и падение.
4. «Эдип» — падение, взлет и снова падение.
5. «Золушка» — взлет, падение, взлет.
6. «Человек, загнанный в угол» — падение и взлет.
Исследователи применили анализ эмоциональной окраски — статистическую методику, часто используемую маркетологами для оценки публикаций в социальных СМИ.Читать полностью »
GeoPuzzle — собери мир по кусочкам
2018-11-01 в 5:50, admin, рубрики: geopuzzle, Google Maps, mercator, open source, open street map, postgis, Геоинформационные сервисы, открытые данные, Программирование, Разработка веб-сайтов
Хочу рассказать о проекте, который развивал последние пару лет. Называется он GeoPuzzle и представляет собой игру-паззл на политической карте мира. Цель — расставить кусочки-страны на свои места. Идея подсмотрена в статье «Головоломка Mercator для знатоков географии», также в детстве играл в тетрис из стран (ещё под DOS), но название программы уже не припомню. Я был настолько вдохновлён идеей, что захотел сделать полноценный продукт, интересный не только школьникам, но и знатокам географии. За развитием проекта можно наблюдать на GitHub.
Читать полностью »
Тим Бернерс-Ли выходит на тропу войны: «Один маленький шаг для web…»
2018-10-05 в 20:18, admin, рубрики: Decentralisation, decentralization, Inrupt, open data, open source, Tim Berners-Lee, Блог компании Philtech Initiative, глобальные проекты, децентрализованные сети, открытые данные, технологические решения, филантропия, филтех
Я всегда считал, что web для всех. Вот почему я и все остальные яростно сражаются, чтобы защитить его. Изменения, которых нам удалось добиться, создали лучший и более связанный мир. Но помимо всего хорошего, что мы достигли, сеть превратилась в двигатель несправедливости и разделения; на который оказывают влияние мощные силы, использующие его для своих собственных целей.
Сегодня я считаю, что мы достигли критического переломного момента, и это кардинальное изменение к лучшему возможно и необходимо.
Вот почему я в последние годы работал с несколькими людьми в Массачусетском технологическом институте и в других местах, чтобы разработать Solid, проект с открытым исходным кодом для восстановления власти и способности к действию отдельных лиц в web.
Solid изменяет текущую модель, где пользователи должны передавать персональные данные цифровым гигантам в обмен на субъективную стоимость. Как мы все выяснили, это не в наших интересах. Solid — это то, как мы развиваем web, чтобы восстановить равновесие — путем предоставления каждому из нас полного контроля над данными, личными или нет, революционным способом.Читать полностью »
«Яндекс» тестирует сервис «Топ сайтов», который будет конкурировать с Mediascope
2018-09-27 в 12:27, admin, рубрики: Mediascope / TNS, аналитика, запуск, Интернет-реклама, открытые данные, статистика, Текучка, яндекс, яндекс.браузер, метки: Mediascope / TNS, аналитика, запуск, интернет-реклама, открытые данные, статистика, Текучка, яндекс, яндекс.браузер«Яндекс» проводит закрытое тестирование нового инструмента — рейтинга самых популярных площадок Рунета или «Топ сайтов». Об этом пишут «Ведомости» со ссылкой на сотрудников нескольких медиакомпаний, которые принимают участие в тесте. В «Яндексе» подтвердили информацию и добавили, что это будет инструмент для всех игроков рынка. На рынке считают,Читать полностью »
Выявление содержательных профилей в VK
2018-09-10 в 15:50, admin, рубрики: анализ данных, боты для социальных сетей, веб-аналитика, классификация, логистическая регрессия, машинное обучение, открытые данные, Социальные сети и сообществаБотов отличать от людей и правда сложновато. Я и сам толком не могу это сделать. Но зато я придумал неплохой велоси... метод, как отличать в VK «интересных людей» от «не очень интересных». В плане сетевого общения, естественно, а не по жизни.
Интерактивная карта для веб-приложения за пару часов
2018-09-10 в 7:46, admin, рубрики: javascript, kepler.gl, MapBox, React, ReactJS, визуализация данных, Геоинформационные сервисы, картографические сервисы, карты, Московские парковки, открытые данные, Разработка веб-сайтовВ прошлой статье я кратко рассказала о возможностях kepler.gl — нового Open Source инструмента для визуализации и анализа больших наборов гео-данных.
Рисунок 1. Варианты карт, созданных с помощью kepler.gl (by Uber)
Данное веб-приложение позволяет за считанные минуты создать информативную, и что немаловажно, красочную интерактивную карту на основе произвольных наборов гео-данных. Однако, возникает вопрос что делать с ней дальше? Как поделиться полученными результатами с коллегами, друзьями или заказчиками?
База данных штрихкодов скачать бесплатно без регистрации (и прочей хурмы)
2018-08-20 в 17:32, admin, рубрики: базы данных, обработка данных, открытые данные, справочник, штрих коды, штрихкодДобрый день.
В открытом доступе наконец-то появился огромный справочник штрихкодов с наименованиями товаров, категориями и брендами.
Мы работаем над ним лет 8 и теперь в нем около 3 миллионов штрихкодов в стандартах EAN (EAN-13, EAN-8) и UPC (UPC-A, UPC-E).
Утечка персональных данных МосОблЕирц
2018-08-10 в 8:05, admin, рубрики: государство и интернет, информационная безопасность, открытые данныеДисклеймер: да, я пытался связаться с разработчиками. Нет, ответа не было. «Дыре» скорее всего столько же лет, сколько и их мобильному приложению, и возможно ей уже давно кто-то пользуется. И я до конца не понимаю, это везде декларируется как фича, просто никто не думал, что можно батчем начислить 2.4 миллионам обслуживаемых абонентов рандомные расходы по счетчикам. Ну и получить их ФИОадрес, как минимум. Может и правда, ничего такого в этом нет. А может, просто пока Рублевка и другие интересные места не обслуживаются ими, но скоро будут. И тогда врядли жители этих мест порадуются, что можно будет хоть на карте с аватарками их показать.
Предыстория: коллега живет в Московской области, скачал себе приложение, указал свой ЛС счет (который печатается на квиточке), а потом то ли ошибся, то ли тупо попробовал указать счет на +1 больше. Автоинкремент типа. И получил вместо своей 57-ой квартиры — следующую, 58ую.
Читать полностью »