Рубрика «big data» - 99

Как нельзя делать рекомендации контента

2016-03-23 в 13:22, admin, рубрики: ab testing, big data, data mining, usability, UX, Блог компании Surfingbird, коллаборативная фильтрация, машинное обучение, Медиа, рекомендательные системы, рекомендации, СМИ

Во время общения с медиа мы в Relap.io часто сталкиваемся с массой заблуждений, в которые все верят, потому что так сложилось исторически. На сайте есть блоки типа «Читать также» или «Самое горячее» и т.п. Словом, всё то, что составляет обвязку статьи и стремится дополнить UX дорогого читателя. Мы расскажем, какие заблуждения есть у СМИ, которые делают контентные рекомендации, и развеем их цифрами.

HAbr1

Рекомендовать по тегам

Самое большое и самое популярное заблуждение. Чаще всего СМИ делают рекомендации в конце статьи по тегам. Так поступает Look At Me и РБК, например. Есть материал с тегами: трактор, Путин, сыр. К нему выводятся тексты про трактора, про Путина и сыр. На первый взгляд, логично:
вилладж
Подобная механика рекомендаций в реальной жизни выглядела бы так. Вы идёте в магазин за продуктами. И кладёте в корзину сливочное масло. К вам подходит консультант с потными от волнения ладошками и говорит: «О, я вижу, вы взяли масло и это значит, что вам нужно масло. Возьмите еще пять видов сливочного деревенского и подсолнечного и козьего масла». Максимум, что может случиться из ряда вон выходящее — вам предложат трансмиссионное, если вы читали что-то про автомобили. И это уже будет считаться rocket science.Читать полностью »

Как использовать Parquet и не поскользнуться

2016-03-21 в 22:22, admin, рубрики: analysis data, analytics, Apache, big data, data formats, distributed computing, parquet, spark, Анализ и проектирование систем, Блог компании Wrike, хранение данных, метки: parquet

Как использовать Parquet и не поскользнуться - 1

О хранении данных в Parquet-файлах не так много информации на Хабре, поэтому надеемся, рассказ об опыте Wrike по его внедрению в связке со Spark вам пригодится.
В частности, в этой статье вы узнаете:

— зачем нужен “паркет”;
— как он устроен;
— когда стоит его использовать;
— в каких случаях он не очень удобен.

Читать полностью »

1 000 000 жилых домов России

2016-03-21 в 21:26, admin, рубрики: big data, data mining, визуализация данных, Геоинформационные сервисы, жек, открытые данные, Россия, метки: жек

Есть прекрасный сайт www.reformagkh.ru. На нём можно найти, управляющую компанию, закреплённую за домом, сколько денег, на что тратится и всё такое. Но кроме этого можно узнать разные интересные вещи о нашей стране в целом, например, для каждого дома на сайте указана дата его постройки, поэтому можно посмотреть, как строилась Москва с 1900 года:
1 000 000 жилых домов России - 1

Ещё более эпичная картинка получается, если посмотреть на Россию целиком:
1 000 000 жилых домов России - 2
Читать полностью »

Строим надёжный процессинг данных — лямбда архитектура внутри Google BigQuery

2016-03-17 в 5:00, admin, рубрики: big data, big data analytics, bigquery, data mining, etl, sql, Администрирование баз данных, базы данных, хранение данных, метки: big data analytics, bigquery

В этой статье хочу поделиться способом, который позволил нам прекратить хаос с процессингом данных. Раньше я считал этот хаос и последующий ре-процессинг неизбежным, а теперь мы забыли что это такое. Привожу пример реализации на BiqQuery, но трюк довольно универсальный.
Строим надёжный процессинг данных — лямбда архитектура внутри Google BigQuery - 1
У нас вполне стандартный процесс работы с данными. Исходные данные в максимально сыром виде регулярно подгружаются в единое хранилище, в нашем случае в BigQuery. Из одних источников (наш собственный продакшн) данные приходят каждый час, из других (обычно сторонние источники) данные идут ежедневно.

В последствии данные обрабатываются до состояния пригодного к употреблению разнообразными пользователями. Это могут быть внутренние дашборды; отчёты партнёрам; результаты, которые идут в продакшн и влияют на поведение продукта. Эти операции могут быть довольно сложными и включать несколько источников данных. Но по большей части мы с этим справляется внутри BigQuery с помощью SQL+UDF. Результаты сохраняются в отдельные таблицы там же.
Читать полностью »

BDRA – современная архитектура для аналитики больших данных

2016-03-14 в 14:30, admin, рубрики: BDRA, big data, Hadoop, HPE, Блог компании Hewlett Packard Enterprise, ит-инфраструктура, Сетевые технологии

Под большими данными обычно понимают серию подходов, инструментов и методов обработки структурированных и неструктурированных данных, которые отличают огромные объёмы и значительное многообразие. Цель такой обработки — получение воспринимаемых человеком результатов.

BDRA – современная архитектура для аналитики больших данных - 1

Поток данных может поступать из разных источников, эти данные гетерогенны и передаются в различных форматах: текст, документы, изображения, видео и многое другое. Для извлечения из таких данных полезной информации определяющее значение имеет программно-аппаратная платформа.
Читать полностью »

Анализ результатов выборов в Госдуму. Готовимся к голосованию 2016 года

2016-03-13 в 18:55, admin, рубрики: big data, data mining, выборы, кандидаты, открытые данные

Выборы в Государственную думу только осенью, но мы уже начинаем готовиться. Если повторится история 2011 года, будет очень интересно. Наверное, многие помнят, как сразу после тех выборов появилась куча статистических исследований, намекающих на фальсификации и как все узнали, как выглядит распределение Гаусса. Я хотел бы рассказать, где искать данные про выборы и как с ними работать. Кроме хорошо известных графиков я покажу некоторые другие прикольные картинки, которых раньше в паблике не видел. Так, например, выглядит распределение голосов за Единую Россию по стране, хорошо видны регионы с максимальной поддержкой партии власти — Северный Кавказ и Татарстан:
Анализ результатов выборов в Госдуму. Готовимся к голосованию 2016 года - 1

Есть такой замечательный сайт izbirkom.ru. Его здесь даже недавно упоминали в контексте, что, типа, на него потратили слишком много денег. Но лично мне не жалко, сайт прекрасный:
Анализ результатов выборов в Госдуму. Готовимся к голосованию 2016 года - 2
Читать полностью »

А нужно ли знать программисту алгоритмы?

2016-03-12 в 8:39, admin, рубрики: big data, Алгоритмы, Большие данные, Программирование, системное администрирование

Не встречали еще разработчика, который вместо стандартной в скриптовом языке функции деления строки по регулярке — пишет C-подобный код с конечным автоматом, который вводит неокрепшие умы в трепет?

И так ужасно ли то, что ты не знаешь в тонкостях работу красно-черных деревьев или путаешь линейный дискриминантный анализ с вторым законом Ньютона? :-)
Читать полностью »

Эксперимент: Использование Google Trends для прогнозирования обвалов фондового рынка

2016-03-11 в 6:59, admin, рубрики: big data, google trends, Блог компании ITinvest, Большие данные, предсказания, прогнозы, фондовый рынок

В нашем блоге на Хабре мы уже рассказывали о различных исследованиях, направленных на создание алгоритмов прогнозирования цен акций, к примеру, с помощью машинного обучения. Еще в 2013 году исследователи из бизнес-школы Уорика (Warwick Business School) опубликовали результаты эксперимента, в ходе которого в качестве инструмента для прогнозирования трендов фондового рынка использовался поисковик Google.

В эпоху интернета огромное количество генерируемой людьми информации доступно онлайн. И из этого шума вполне можно вычленить и нечто полезное. Исследователи убеждены, что в анализе тенденций фондового рынка можно использовать информацию о поисковых запросах.Читать полностью »

Знакомьтесь, линейные модели

2016-03-10 в 12:18, admin, рубрики: big data, data mining, generalized linear model, glm, linear model, linear regression, regularization, линейная регрессия, математика, машинное обучение, регуляризация, метки: generalized linear model, glm

Машинное обучение шагает по планете. Искусственный интеллект, поскрипывая нейронными сетями, постепенно опережает людей в тех задачах, до которых успел дотянуться своими нейронами. Однако не стоит забывать и про простую модель линейной регрессии. Во-первых, потому что на ней построены многие сложные методы машинного обучения, включая нейронные сети. А, во-вторых, потому что зачастую прикладные бизнес-задачи легко, быстро и качественно решаются именно линейными моделями.
И для начала небольшой тест. Можно ли с помощью линейной модели описать:
— зависимость веса человека от его роста?
— длительность ожидания в очереди в магазине в разное время суток?
— посещаемость сайта в фазе экспоненциального роста?
— динамику во времени количества человек, ожидающих поезда на станции метро?
— вероятность, что клиент не оформит заказ на сайте в зависимости от его производительности?
Как вы догадываетесь, на все вопросы ответ будет «Да, можно». Так что линейные модели не так просты, как может показаться на первый взгляд. Поэтому давайте познакомимся с их богатым разнообразием.
Читать полностью »

IBM и X Prize Foundation объявили конкурс по искусственному интеллекту с призовым фондом в $5 млн

2016-03-09 в 14:24, admin, рубрики: AI, big data, IBM, XPRIZE, Блог компании IBM, Облачные вычисления

IBM и X Prize Foundation объявили конкурс по искусственному интеллекту с призовым фондом в $5 млн - 1

Корпорация IBM вместе с организацией X Prize Foundation объявили конкурс Watson AI XPRIZE Cognitive Computing Competition. О старте конкурса объявили Дэвид Кенни (David Kenny), руководитель проекта IBM Watson, и Питер Диамандис (Peter Diamandis), председатель Фонда XPRIZE. Изначальная цель конкурса — использование искусственного интеллекта для выполнения прикладных задач, включая решение актуальных для человека проблем. К участию планируется привлечь команды разработчиков со всего мира.

Итоговая цель — объединение творческих умов в единое целое, создание команды, которая сможет генерировать креативные идеи, предлагать пути решения самых разных задач и проблем в медицине, промышленности, научной сфере, бизнесе. У Фонда XPRIZE в плане проведения конкурсов огромный опыт, поэтому IBM и решила объединить усилия с этой организацией.
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «big data» - 99

Как нельзя делать рекомендации контента

Рекомендовать по тегам

Как использовать Parquet и не поскользнуться

1 000 000 жилых домов России

Строим надёжный процессинг данных — лямбда архитектура внутри Google BigQuery

BDRA – современная архитектура для аналитики больших данных

Анализ результатов выборов в Госдуму. Готовимся к голосованию 2016 года

А нужно ли знать программисту алгоритмы?

Эксперимент: Использование Google Trends для прогнозирования обвалов фондового рынка

Знакомьтесь, линейные модели

IBM и X Prize Foundation объявили конкурс по искусственному интеллекту с призовым фондом в $5 млн

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «big data» - 99

Рекомендовать по тегам

Новости

Актуальные темы

Архив