Рубрика «big data» - 90

Yandex Data Factory предскажет необходимое количество продуктов со скидкой «Пятёрочке»

2016-09-01 в 6:02, admin, рубрики: big data, Yandex Data Factory, еда, инвестиции, Текучка, товарные рекомендации, яндекс, метки: big data, Yandex Data Factory, еда, инвестиции, Текучка, товарные рекомендации, яндекс

X5 Retail Group тестирует систему предсказания спроса на товары со скидками в «Пятёрочках», её разработала Yandex Data Factory. X5 тестировала сервис в Липецкой области в начале 2016 года. Прогноз делался для промоакций типа «регулярные скидки, действующие в течение одной недели», после модель была применена и для всех других типов промоакций. По словам представителя YDF, в 87% случаев прогноз оказался верен с точностью до одной упаковки, Читать полностью »

API Яндекс.Погоды стоит от 180 000 рублей в месяц, и уже есть первые покупатели

2016-08-29 в 9:35, admin, рубрики: big data, Геолокационные сервисы, Текучка, яндекс, яндекс.погода, метки: big data, Геолокационные сервисы, Текучка, яндекс, Яндекс.Погода

«Яндекс» намерен открыть API сервиса Яндекс.Погода сторонним компаниям на коммерческой основе. С помощью данного API сторонние компании смогут создавать свои погодные приложения, сервисы прогнозов, сообщать статистические данные и т. д. Прогноз погоды «Яндекса» создан на базе собственной технологии «Метеум». Она может предсказывать погоду с точностью до дома. Компания использует математическую модель,Читать полностью »

Что такое большие данные, часть 2

2016-08-26 в 8:12, admin, рубрики: altavista, amazon, Amazon Web Services, big data, data mining, Facebook, Google, pagerank, Yahoo, Большие данные, информация, история

В первой части этой серии статей вы узнали о данных и о том, как можно использовать компьютеры чтобы добывать смысловое значение из крупных блоков таких данных. Вы даже видели что-то похожее на большие данные у Amazon.com середины девяностых, когда компания запустила технологию для наблюдения и записи в реальном времени всего, что многотысячная аудитория клиентов одновременно делала на их сайте. Довольно впечатляюще, но назвать это большими данными можно с натяжкой, пухлые данные — больше подойдёт. Организации вроде Агентства национальной безопасности США (NSA) и Центра правительственной связи Великобритании (GCHQ) уже собирали большие данные в то время в рамках шпионских операций, записывая цифровые сообщения, хотя у них и не было простого способа расшифровать их и найти в них смысл. Библиотеки правительственных записей были переполнены наборами бессвязных данных.

То, что сделал Amazon.com, было проще. Уровень удовлетворённости их клиентов мог быть легко определен, даже если он охватывал все десятки тысяч продуктов и миллионы потребителей. Действий, которые клиент может совершить в магазине, реальный он или виртуальный, не так уж много. Клиент может посмотреть что в доступе, запросить дополнительную информацию, сравнить продукты, положить что-то в корзину, купить или уйти. Всё это было в пределах возможностей реляционных баз данных, где отношения между всеми видами действий возможно задать заранее. И они должны быть заданы заранее, с чем у реляционных баз данных проблема — они не так легко расширяемы.

Заранее знать структуру такой базы данных — как составить список всех потенциальных друзей вашего неродившегося ребенка… на всю жизнь. В нём должны быть перечислены все неродившиеся друзья, потому что как только список будет составлен, любое добавление новой позиции потребует серьезного хирургического вмешательства.Читать полностью »

Big Data хакатон от Университета Иннополис и компании Provectus

2016-08-26 в 7:50, admin, рубрики: big data, Hackathon, Блог компании Innopolis University, разработка

Приглашаем принять участие в 48-часовом командном соревновании, направленном на построение «умной системы» анализа логов и метрик кластера, обрабатывающего данные. Хакатон Hydrosphere.io пройдёт 9-11 сентября в Иннополисе, участие бесплатное. Все подробности под катом.Читать полностью »

R и Spark

2016-08-25 в 13:54, admin, рубрики: big data, Microsoft Azure, R, spark, машинное обучение

Spark – проект Apache, предназначенный для кластерных вычислений, представляет собой быструю и универсальную среду для обработки данных, в том числе и для машинного обучения. Spark также имеет API и для R(пакет SparkR), который входит в сам дистрибутив Spark. Но, помимо работы с данным API, имеется еще два альтернативных способа работы со Spark в R. Итого, мы имеем три различных способа взаимодействия с кластером Spark. В данном посте приводиться обзор основных возможностей каждого из способов, а также, используя один из вариантов, построим простейшую модель машинного обучения на небольшом объеме текстовых файлов (3,5 ГБ, 14 млн. строк) на кластере Spark развернутого в Azure HDInsight.
Читать полностью »

«Мои друзья потеряли меня из виду на 3 месяца» или как люди учатся у нас big data

2016-08-24 в 13:11, admin, рубрики: big data, data mining, data science, Блог компании New Professions Lab, машинное обучение

Всем привет! 5 октября в New Professions Lab стартует пятый набор программы «Специалист по большим данным», которую на данный момент закончило более 200 человек. Мы уже рассказывали на Хабре (здесь и здесь), чему конкретно мы учим, с какими знаниями и навыками выходят наши выпускники, и совсем скоро напишем, что нового будет в пятой программе. А сегодня хотим поделиться рассказами и отзывами тех, кто уже прошел обучение и на себе испытал все тяготы и невзгоды.

Читать полностью »

Встреча любителей больших данных

2016-08-19 в 14:05, admin, рубрики: big data, Блог компании DCA (Data-Centric Alliance), Большие данные, машинное обучение

Привет! Если вам были интересны публикации из нашего блога, то наверняка вам будет интересно принять участие во встрече экспертов в области Data Science и машинного обучения, которая пройдёт 31 августа (среда) в DI Telegraph (Москва, Тверская 7). На встрече будет обсуждаться широкий круг вопросов, связанных с применением алгоритмов машинного обучения для решения задач анализа больших данных, тематического моделирования и генеративных алгоритмов.

Партнером и соорганизатором мероприятия выступаем мы — российская технологическая компания DCA (Data-Centric Alliance), специализирующаяся на работе с большими данными и высоконагруженными системами. Информация про формат и спикеров под катом.
Читать полностью »

Дино Эспозито на uDev Tech Events: «Life as a Service: Scalability and other Aspects»

2016-08-16 в 16:15, admin, рубрики: .net, big data, Блог компании Plarium, высокая производительность, геймдев, дино эспозито, конференция, масштабируемость, Программирование, разработка, разработка игр, стрим

13 сентября 2016 года Дино Эспозито выступит на uDev Tech Events с лекцией на тему «Life as a Service: Scalability and other Aspects». Для тех, кто не сможет посетить мероприятие, будет вестись прямая трансляция.

Читать полностью »

Кто виноват, и что делать, если айтишник скучает на работе. Результаты опроса

2016-08-16 в 12:01, admin, рубрики: big data, data science, Блог компании New Professions Lab, Исследования и прогнозы в IT, опрос, профессиональный рост, Учебный процесс в IT

Недавно мы провели опрос среди айтишников, чтобы узнать, скучают ли они на работе, и почему это происходит. Как мы и думали, большинство специалистов время от времени не знают, чем себя занять, и при этом задумываются, как можно этого избежать. Многие готовы оставаться на нынешнем месте работы, причем более 80% не хотят становиться начальниками, а хотят развиваться профессионально. Из них почти 10% видят себя в области Big Data и Data Science.

Всего на наши вопросы ответили 1898 человек. Данные можно посмотреть здесь и здесь.

Читать полностью »

Работа с фреймворком итеративной обработки графов Giraph на примере RBM

2016-08-15 в 10:58, admin, рубрики: big data, framework, giraph, java, mail.ru, rbm, Алгоритмы, Блог компании Mail.Ru Group

Работа с фреймворком итеративной обработки графов Giraph на примере RBM - 1
The Indifferent by xetobyte

Всем привет. В предыдущей статье мы рассказали, как создавать свои приложения под фреймворк Giraph (надстройка над системой обработки данных Hadoop), и обещали подробно рассмотреть, как работать с Giraph, на примере алгоритма обучения Restricted Boltzmann Machine. Итак, в какой-то момент группа сегментации аудитории департамента рекламных технологий Mail.Ru Group столкнулась с необходимостью подобрать инструмент для быстрого анализа графов, и по целому ряду причин (читайте ниже) наше внимание привлекла система Apache Giraph.
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «big data» - 90

Yandex Data Factory предскажет необходимое количество продуктов со скидкой «Пятёрочке»

API Яндекс.Погоды стоит от 180 000 рублей в месяц, и уже есть первые покупатели

Что такое большие данные, часть 2

Big Data хакатон от Университета Иннополис и компании Provectus

R и Spark

«Мои друзья потеряли меня из виду на 3 месяца» или как люди учатся у нас big data

Встреча любителей больших данных

Дино Эспозито на uDev Tech Events: «Life as a Service: Scalability and other Aspects»

Кто виноват, и что делать, если айтишник скучает на работе. Результаты опроса

Работа с фреймворком итеративной обработки графов Giraph на примере RBM

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «big data» - 90

Новости

Актуальные темы

Архив