Рубрика «data mining» - 60

Кого агрегирует Meduza?

2016-08-11 в 6:32, admin, рубрики: big data, data mining, анализ данных, аналитика, визуализация данных, математика, Медиа, Медуза

Гегель считал, что общество становится современным, когда новости заменяют религию.
The News: A User's Manual, Alain de Botton

Читать все новости стало разительно невозможно. И дело не только в том, что пишет их Стивен Бушеми в перерывах между боулингом с Лебовски, а скорее в том, что их стало слишком много. Тут нам на помощь приходят агрегаторы новостей и естественным образом встаёт вопрос: а кого и как они агрегируют?

Заметив пару интересных статей на Хабре про API и сбор данных популярного новостного сайта Meduza, решил расчехлить щит Персея и продолжить славное дело. Meduza мониторит множество различных новостных сайтов, и сегодня разберемся какие источники в ней преобладают, можно ли их осмысленно сгруппировать и есть ли здесь ядро, составляющее костяк новостной ленты.

Краткое определение того, что такое Meduza:

«Помните, как неумные люди все время называли «Ленту»? Говорили, что «Лента» — агрегатор. А давайте мы и в самом деле сделаем агрегатор» (интервью Forbes)

(это не просто КДПВ, а топ-35 медиа по числу новостей указанных в качестве источника на сайте Meduza, включая её саму)

Конкретизируем и формализуем вопросы:

Q₁: Из каких ключевых источников состоит лента новостей?

Иначе говоря, можем ли мы выбрать небольшое число источников достаточно покрывающих всю ленту новостей?

Q₂: Есть ли на них какая-то простая и интерпретируемая структура?

Проще говоря, можем ли мы кластеризовать источники в осмысленные группы?

Q₃: Можно ли по этой структуре определить общие параметры агрегатора?

Читать полностью »

Пересечение морд доменов топ 1,000,000 по N-граммам

2016-08-06 в 20:12, admin, рубрики: alexa top 1m, big data, data mining, ngram, н-граммы, открытые данные, метки: alexa top 1m, ngram, н-граммы

Задачей исследования является визуализация дуплицированности главных страниц доменов по пятисловным шинглам в рамках общей базы.

Травим краулер

Читать полностью »

8 лекций, которые помогут разобраться в машинном обучении и нейросетях

2016-08-05 в 14:40, admin, рубрики: data mining, Блог компании Surfingbird, глубинное обучение, лекции, математика, машинное обучение, нейросети

8 лекций, которые помогут разобраться в машинном обучении и нейросетях - 1

Мы собрали интересные лекции, которые помогут понять, как работает машинное обучение, какие задачи решает и что нам в ближайшем будущем ждать от машин, умеющих учиться. Первая лекция рассчитана скорее на тех, кто вообще не понимает, как работает machine learning, в остальных много интересных кейсов.Читать полностью »

Машинное обучение с помощью TMVA. Reader модели

2016-08-04 в 22:34, admin, рубрики: big data, c++, data mining, open source, машинное обучение

Несмотря на отсутствие интереса у широкой публики к диковинной библиотеке из мира физики, продолжу обещанный рассказ о том, как можно применять полученную модель на практике, заодно попытаюсь более подробно раскрыть тему эксклюзивности TMVA.
Допустим, Вы работаете в проекте, требующем максимального быстродействия системы (геймдев, картографический сервис или же данные с коллайдера), тогда очевидно, что Ваш код написан на языке, который предельно близок к железу — C/C++. И однажды возникает необходимость добавить к сервису какую-то математику в зависимости от потребностей проекта. Обычно взгляд падает на змеиный язык, который имеет множество удобных математических библиотек для прототипирования идей, но при этом бесполезном в работе с действительно большим объёмом данных и поедающем словно удав все ресурсы машины.Читать полностью »

От Англии до Таинственного острова вместе с героями романов Жюля Верна

2016-07-20 в 21:03, admin, рубрики: ABBYY, abbyy compreno, data mining, Блог компании ABBYY, визуализация данных, Семантика

С постоянно растущим объемом текстовой информации и уровнем развития инструментов web-визуализации возникает желание все эти объемы визуализировать. Демонстрация возможности такой визуализации — задача, которая была поставлена перед командой студентов в рамках работы ABBYY Labs и курса “Промышленное программирование” на Факультете инноваций и высоких технологий (ФИВТ) в МФТИ (если вы ещё ни разу не читали в нашем блоге о студенческих лабораториях ABBYY, есть смысл вернуться вот к этому посту).

Пятнадцати третьекурсникам-разработчикам и четырем четверокурсникам-менеджерам, студентам ФИВТ, было предложено за три месяца исследовать современные open-source решения визуализации структурированных данных и затем, выбрав для себя тему, визуализировать текстовую информацию на естественном языке. Переход от неструктурированной информации к структурированной предлагалось осуществить при помощи семантико-синтаксического парсера ABBYY Compreno.

От Англии до Таинственного острова вместе с героями романов Жюля Верна - 1
Читать полностью »

Что такое большие данные, часть 1

2016-07-15 в 10:14, admin, рубрики: amazon, big data, data mining, sql, Администрирование баз данных, Большие данные, информация, история, хранение данных

Что такое большие данные, часть 1 - 1

Большие данные — это Большие Новости, Большая Важность и Большой Бизнес, но что это на самом деле? Что такое большие данные? Для тех, кто живёт ими, всё очевидно, а я просто тупица — задавать подобные вопросы. Но те, кто живёт ими, считают большинство людей глупыми, верно? Поэтому в начале я хочу поговорить с теми читателями, которые, как и я, не в теме. Что это вообще такое? На этой неделе я планирую хорошенько исследовать этот вопрос, и, скорее всего, опубликовать три длинных статьи (прим. переводчика: переводы следующих двух частей выйдут в ближайшие дни).Читать полностью »

Kaggle: История о том как мы учились предсказывать релевантность поисковых запросов и заняли 3-е место

2016-07-12 в 13:08, admin, рубрики: data mining, data science, kaggle, machine learning, natural language processing, машинное обучение

Превью

Здравствуй! 25-го апреля 2016 года закончилось 3-х месячное напряженное соревнование Home Depot Product Search Relevance в котором нашей команде Turing Test (Igor Buinyi, Kostiantyn Omelianchuk, Chenglong Chen) удалось не только неплохо разобраться с Natural Language Processing и ML, но и занять 3-е место из 2125 команд. Полное описание нашего решения и код доступны тут, краткое интервью тут, а цель этой публикации не только рассказать о решении, которое принесло нам такой результат, но и о тех трудностях и переживаниях, через которые нам довелось пройти во время соревнования.
Читать полностью »

Как распарсить JSON-строку в командной строке Linux

2016-07-10 в 19:25, admin, рубрики: cli, command line, console, data mining, javascript, jq, json, linux, nix, parse, parser, string, tool, utility, инструмент, командная строка, консоль, парсинг, разбор, Разработка под Linux, Тестирование веб-сервисов, утилита, метки: jq

Как распарсить JSON-строку в командной строке Linux - 1
Если вы часто работаете с текстами формата JSON из командной строки или в шелл-скриптах, вы можете задаться вопросом, есть ли какая-то консольная утилита, которая может распарсить JSON-строку. Консольный JSON-парсер может быть удобен, когда вы тестируете или отлаживаете сетевые JSON-сервисы. Вы можете скормить ответы формата JSON от веб-сервиса консольному JSON-парсеру, тем самым легко изучая трудночитаемые JSON-ответы или извлекая из них отдельные объекты.

В этом руководстве я покажу, как распарсить JSON-строку из командной строки.
Читать полностью »

Анализ логов с помощью SQL?

2016-07-10 в 12:35, admin, рубрики: data mining, php, spark, sql, Разработка веб-сайтов

Представьте, что мы хотим написать на обычном SQL запрос не в базу данных, а к логам. В работе может возникнуть задача анализа логов, для которой потребуется делать запросы на SQL к неструктурированному набору данных, который даже не находится в СУБД. В этой заметке я расскажу о примере использования Spark SQL для выявления правил (логики) выбора необходимых документов из большого хранилища.

Читать полностью »

ORegex: Достаточно ли быстро для объектов?

2016-07-07 в 20:31, admin, рубрики: .net, C#, data mining, ORegex, pattern matching, regex, метки: ORegex

Добрый вечер, читатели! Сегодня хочу поделиться небольшими перфоманс оценками ORegex .NET.
Если вы читали мою предыдущую статью здесь, то на мой взгляд было не очень убедительно представлять что-то без сравнительной оценки скорости, Вы так не считаете? Если да, то Вам под кат.

Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 60

Кого агрегирует Meduza?

Пересечение морд доменов топ 1,000,000 по N-граммам

Травим краулер

8 лекций, которые помогут разобраться в машинном обучении и нейросетях

Машинное обучение с помощью TMVA. Reader модели

От Англии до Таинственного острова вместе с героями романов Жюля Верна

Что такое большие данные, часть 1

Kaggle: История о том как мы учились предсказывать релевантность поисковых запросов и заняли 3-е место

Превью

Как распарсить JSON-строку в командной строке Linux

Анализ логов с помощью SQL?

ORegex: Достаточно ли быстро для объектов?

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 60

Травим краулер

Превью

Новости

Актуальные темы

Архив