Рубрика «big data» - 114

Как мы готовим будущих специалистов по большим данным

2015-02-27 в 12:11, admin, рубрики: big data, BigData, data mining, data science, Hadoop, machine learning, nosql, Блог компании New Professions Lab, машинное обучение, метки: hadoop, it образование

В эту субботу стартует наша программа “Специалист по большим данным”: она получилась такой насыщенной, что, кажется, в ближайшие три месяца у слушателей не останется никакого свободного времени. В этом посте я расскажу, как именно мы будем растить специалистов по Big Data, и как будет построен процесс обучения во время первого месяца.

Как мы готовим будущих специалистов по большим данным - 1

Центральный кейс на этот период — создание DMP-системы. DMP (data management platform) анализирует интернет-логи пользователей и, исходя из их поведения в сети, присваивает этим людям различные свойства или причисляет к определенным классам. Например, правильно настроенная DMP-система может определить пол и возраст человека и узнать, является ли он гаджетоманом или, скажем, фанатом люксовых фешн-брендов. Этот кейс мы разрабатываем совместно с компанией Data-Centric Alliance, они используют большие данные для настройки рекламных кампаний.Читать полностью »

Обучение на больших данных: Spark MLlib

2015-02-26 в 13:53, admin, рубрики: Apache, big data, data mining, Hadoop, python, spark, анализ данных, Большие данные, машинное обучение, разработка

Привет!

В прошлый раз мы познакомились с инструментом Apache Spark, который в последнее время становится чуть ли не самым популярным средством для обработки больших данных и в частности, Large Scale Machine Learning. Сегодня мы рассмотрим подробнее библиотеку MlLib, а именно — покажем, как решать задачи машинного обучения — классификации, регресии, кластеризации, а также коллаборативной фильтрации. Кроме этого покажем, как можно исследовать признаки с целью отбора и выделения новых (т.н. Feature Engineering, о котором мы говорили ранее, причем не один раз).
Читать полностью »

Apache Spark: что там под капотом?

2015-02-26 в 0:46, admin, рубрики: Apache, big data, big data analytics, data mining, Hadoop, mpp, spark, sparsql, параллельные вычисления

Вступление

В последнее время проект Apache Spark привлекает к себе огромное внимание, про него написано большое количество маленьких практических статей, он стал частью Hadoop 2.0. Плюс он быстро оброс дополнительными фреймворками, такими, как Spark Streaming, SparkML, Spark SQL, GraphX, а кроме этих «официальных» фреймворков появилось море проектов — различные коннекторы, алгоритмы, библиотеки и так далее. Достаточно быстро и уверенно разобраться в этом зоопарке при отсутсвие серьезной документации, особенно учитывая факт того, что Spark содержит всякие базовые кусочки других проектов Беркли (например BlinkDB) — дело непростое. Поэтому решил написать эту статью, чтобы немножко облегчить жизнь занятым людям.

Небольшая предыстория:

Spark — проект лаборатории UC Berkeley, который зародился примерно в 2009г. Основатели Спарка — известные ученые из области баз данных, и по философии своей Spark в каком-то роде ответ на MapReduce. Сейчас Spark находится под «крышей» Apache, но идеологи и основные разработчики — те же люди.

Spoiler: Spark в 2-х словах

Spark можно описать одной фразой так — это внутренности движка массивно-параллельной СУБД. То есть Spark не продвигает свое хранилище, а живет сверх других (HDFS — распределенная файловая система Hadoop File System, HBase, JDBC, Cassandra,… ). Правда стоит сразу отметить проект IndexedRDD — key/value хранилище для Spark, которое наверное скоро будет интегрировано в проект.Также Spark не заботится о транзакциях, но в остальном это именно движок MPP DBMS.

RDD — основная концепция Spark

Ключ к пониманию Spark — это RDD: Resilient Distributed Dataset. По сути это надежная распределенная таблица (на самом деле RDD содержит произвольную коллекцию, но удобнее всего работать с кортежами, как в реляционной таблице). RDD может быть полностью виртуальной и просто знать, как она породилась, чтобы, например, в случае сбоя узла, восстановиться. А может быть и материализована — распределенно, в памяти или на диске (или в памяти с вытеснением на диск). Также, внутри, RDD разбита на партиции — это минимальный объем RDD, который будет обработан каждым рабочим узлом.

Читать полностью »

Международная выставка «EuroCIS-2015». Прямая twitter-трансляция

2015-02-24 в 7:01, admin, рубрики: big data, EuroCIS, IT-стандарты, Блог компании Кристалл Сервис, информационная безопасность, платежные системы, ритейл, торговля, метки: EuroCIS

24–26 февраля в Дюссельдорфе проходит самое значимое событие ритейла — международная выставка EuroCIS 2015. В течении 3 дней выставка соберет вместе более 7 000 лучших специалистов из 23 стран.

Читать полностью »

Обзор наиболее интересных материалов по анализу данных и машинному обучению №36 (16 — 22 февраля 2015)

2015-02-22 в 13:51, admin, рубрики: big data, data mining, data science, data science digest, high scalability, machine learning, машинное обучение

Обзор наиболее интересных материалов по анализу данных и машинному обучению №36 (16 — 22 февраля 2015) - 1
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать полностью »

Госпоисковик «Спутник» получит 800 млн рублей инвестиций от «Ростелекома»

2015-02-19 в 9:14, admin, рубрики: big data, венчурные инвестиции, государственные проекты, Ростелеком, спутник, Управление продуктом, финансы в IT

Госпоисковик «Спутник» получит 800 млн рублей инвестиций от «Ростелекома» - 1

Государственный поисковый сервис «Спутник» был запущен в работу в мае 2014 года. Его назначение — помощь пользователям в поиске социально значимой информации, включая здравоохранение, госуслуги и прочее. Сейчас разработчики проводят бета-тестирование системы, также планируется дальнейшее развитие проекта. Так, по данным «Коммерсанта», основной акционер проекта, компания «Ростелеком», планирует в этом году вложить до 800 миллионов рублей в развитие системы. Деньги, в частности, будут потрачены на разработку новых сервисов по обработке и анализу Big Data. Новые сервисы «Ростелеком» будет использовать и внутри компании.

По словам вице-президента «Ростелекома» Алексея Басова, новые технологии «Спутника» будут использоваться внутри самой компании, для формирования предложений и услуг, которые можно продавать заказчикам. При этом уже сейчас проводится тестирование возможностей сервиса по работе с «большими данными». По мнению Басова, все это позволяет оптимизировать общую работу сети, повысить уровень средней выручки из расчета на одного абонента (ARPU), создавать модели поведения клиента и более эффективно распоряжаться средствами.
Читать полностью »

«Спутник» займется BigData-проектами «Ростелекома»

2015-02-19 в 8:27, admin, рубрики: big data, Алексей Басов, поиск, Ростелеком, Сергей Калугин, спутник, Текучка, метки: big data, Алексей Басов, поиск, Ростелеком, Сергей Калугин, спутник, Текучка

«Ростелеком» хочет больше BigData-проектов, а помочь ему в этом должен поисковик «Спутник», основным владельцем которого является оператор. Об этом пишет «Коммерсант» со ссылкой на президента «Ростелекома» Сергея Калугина.

В качестве примеров, зачем «Читать полностью »

IBM Watson for Oncology: помощь когнитивной системы в борьбе с раком

2015-02-18 в 7:22, admin, рубрики: big data, ibm watson, watson analytics, Блог компании IBM, онкологические заболевания, метки: watson analytics

IBM Watson for Oncology: помощь когнитивной системы в борьбе с раком - 1

IBM Watson уже умеет ставить диагнозы в качестве терапевта, а теперь система помогает медикам бороться с раковыми заболеваниями, в рамках программы Watson for Oncology. При этом активный блок системы уже не занимает целую комнату, размер блока теперь равен примерно трем коробкам пиццы, поставленным друг на друга. Watson задаёт вопросы и делает предположения, используя данные последних медицинских исследований в области онкологии, плюс используется информация из медицинской карточки пациента и текущие симптомы. В результате каждый пациент получает индивидуальный подход – ведь одно заболевание, даже самое простое и безобидное, у разных людей протекает по-разному. Что говорить о такой сложной проблеме, как рак.

Роб Меркель, руководитель исследовательской группы здравоохранения в IBM Watson Group, утверждает, что когнитивная система способна за короткое время изучить историю болезни пациента, все записи и комментарии врачей, просмотреть последние исследования по данной теме и поставить диагноз на основе всех этих данных. Причем информация не просто суммируется, IBM Watson детально анализирует данные, сопоставляет различные факторы, проводит аналогии.
Читать полностью »

Введение в Apache Spark

2015-02-17 в 10:36, admin, рубрики: Apache, big data, data mining, Hadoop, python, spark, машинное обучение, разработка, метки: Big Data

Привет!

В прошлый раз мы рассмотрели замечательный инструмент Vowpal Wabbit, который бывает полезен в случаях, когда приходится обучаться на выборках, не помещающихся в оперативную память. Напомним, что особенностью данного инструмента является то, что он позволяет строить в первую очередь линейные модели (которые, к слову, имеют хорошую обобщающую способность), а высокое качество алгоритмов достигается за счет отбора и генерации признаков, регуляризации и прочих дополнительных приемов. Сегодня рассмотрим инструмент, который более популярен и предназначен для обработки больших обьемов данных — Apache Spark.
Читать полностью »

Поиск похожих документов с MinHash + LHS

2015-02-16 в 9:31, admin, рубрики: big data, data mining, jaccard, lhs, minhash, Алгоритмы, похожие множества, метки: jaccard, lhs, minhash, похожие множества

В этой публикации я расскажу о том, как можно находить похожие документы с помощью MinHash + Locality Sensitive Hashing. Описание LHS и Minhash в «Википедии» изобилует ужасающим количеством формул. На самом деле все довольно просто.
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «big data» - 114

Как мы готовим будущих специалистов по большим данным

Обучение на больших данных: Spark MLlib