Рубрика «MapReduce» - 2

Поиск Яндекса с инженерной точки зрения. Лекция в Яндексе

2016-10-15 в 8:49, admin, рубрики: MapReduce, Алгоритмы, Блог компании Яндекс, индекс, кластеры, матрикснет, машинное обучение, поиск, поисковые алгоритмы, поисковые системы, поисковые технологии, Промышленное программирование, ранжирование, ранжирование поиска

Сегодня мы публикуем ещё один из докладов, прозвучавших на летней встрече об устройстве поиска Яндекса. Выступление руководителя отдела ранжирования Петра Попова получилось в тот день самым доступным для широкой аудитории: минимум формул, максимум общих понятий о поиске. Но интересно было всем, потому что Пётр несколько раз переходил к деталям и в итоге рассказал много такого, о чём Яндекс никогда раньше публично не заявлял.

Кстати, одновременно с публикацией этой расшифровки начинается вторая встреча из серии, посвящённой технологиям Яндекса. Сегодняшнее мероприятие — уже не про поиск, а про инфраструктуру. Вот ссылка на трансляцию.

Ну а под катом — лекция Петра Попова и часть слайдов.

Читать полностью »

Как писать меньше кода для MR, или Зачем миру ещё один язык запросов? История Yandex Query Language

2016-10-12 в 14:44, admin, рубрики: big data, Hadoop, MapReduce, netty, realtime mapreduce, s-expressions, spark, sql, Алгоритмы, Анализ и проектирование систем, Блог компании Яндекс, инфраструктура, Промышленное программирование, языки запросов

Исторически во многих уголках Яндекса разрабатывались свои системы хранения и обработки больших объемов данных — с учетом специфики конкретных проектов. При такой разработке в приоритете всегда была эффективность, масштабируемость и надежность, поэтому на удобные интерфейсы для использования подобных систем времени, как правило, не оставалось. Полтора года назад разработку крупных инфраструктурных компонентов выделили из продуктовых команд в отдельное направление. Цели были следующими: начать двигаться быстрее, уменьшить дублирование среди схожих систем и снизить порог входа новых внутренних пользователей.

Очень скоро мы поняли, что тут мог бы здорово помочь общий высокоуровневый язык запросов, который бы предоставлял единообразный доступ к уже имеющимся системам, а также избавлял от необходимости заново реализовывать типовые абстракции на низкоуровневых примитивах, принятых в этих системах. Так началась разработка Yandex Query Language (YQL) — универсального декларативного языка запросов к системам хранения и обработки данных. (Сразу скажу, что мы знаем, что это уже не первая штука в мире, которая называется YQL, но мы решили, что это делу не мешает, и оставили название.)

В преддверии нашей встречи, которая будет посвящена инфраструктуре Яндекса, мы решили рассказать о YQL читателям Хабрахабра.

Читать полностью »

Когда старый MapReduce лучше нового Tez

2016-10-10 в 13:53, admin, рубрики: big data, Hadoop, MapReduce, tez, Блог компании Mail.Ru Group, высокая производительность, метки: tez

Когда старый MapReduce лучше нового Tez - 1

Как всем известно, количество данных в мире растёт, собирать и обрабатывать поток информации становится всё сложнее. Для этого служит популярное решение Hadoop c идеей упрощения методов разработки и отладки многопоточных приложений, использующее парадигму MapReduce. Эта парадигма не всегда удачно справляется со своими задачами, и через некоторое время появляется «надстройка» над Hadoop: Apache Tez с парадигмой DAG. Под появление Tez подстраивается и HDFS-SQL-обработчик Hive. Но не всегда новое лучше старого. В большинстве случаев HiveOnTez значительно быстрее HiveOnMapReduce, но некоторые подводные камни могут сильно повлиять на производительность вашего решения. Здесь я хочу рассказать, с какими нюансами столкнулся. Надеюсь, это поможет вам ускорить ETL или другой Hadoop UseCase.
Читать полностью »

MapReduce в Qt Concurrent

2016-09-28 в 7:24, admin, рубрики: MapReduce, qt, С++

MapReduce в Qt
На картинке изображен MapReduce в том виде, в каком он реализован в Qt:

QFuture<T> QtConcurrent::mappedReduced(const Sequence &sequence,
    MapFunction mapFunction, ReduceFunction reduceFunction /*...*/)
T QtConcurrent::blockingMappedReduced(const Sequence &sequence,
    MapFunction mapFunction, ReduceFunction reduceFunction /*...*/)

Столкнулся с тем, что коллеги на работе не знают про MapReduce в Qt Concurrent. Как говорил Гёте: "Чего мы не понимаем, тем не владеем". Под катом будет немножко про Map, про Reduce, про Fork–join model и пример решения простой задачки при помощи MapReduce.

Читать полностью »

YT: зачем Яндексу своя MapReduce-система и как она устроена

2016-09-27 в 8:02, admin, рубрики: big data, MapReduce, YT, Алгоритмы, Анализ и проектирование систем, Блог компании Яндекс, инфраструктура Яндекса, Промышленное программирование, метки: YT

В течение последних шести лет в Яндексе идет работа над системой под кодовым называнием YT (по-русски мы называем её «Ыть»). Это основная платформа для хранения и обработки больших объемов данных — мы уже о ней рассказывали на YaC 2013. С тех пор она продолжала развиваться. Сегодня я расскажу о том, с чего началась разработка YT, что нового в ней появилось и что ещё мы планируем сделать в ближайшее время.

Кстати, 15 октября в офисе Яндекса мы расскажем не только о YT, но и о других наших инфраструктурных технологиях: Media Storage, Yandex Query Language и ClickHouse. На встрече мы раскроем тайну — расскажем, сколько же в Яндексе MapReduce-систем.

Какую задачу мы решаем?

По роду своей деятельности Яндекс постоянно сталкивается с необходимостью хранить и обрабатывать данные таких объемов, с которыми обычному пользователю никогда не приходится иметь дело. Поисковые логи и индексы, пользовательские данные, картографическая информация, промежуточные данные и результаты алгоритмов машинного обучения — все это может занимать сотни петабайт дискового пространства. Для эффективной обработки подобных объемов традиционно используется парадигма MapReduce, позволяющая достичь хорошего баланса между эффективностью вычислений и простотой пользовательского кода.

Читать полностью »

Какая-такая Data? Или ещё раз про MapReduce

2016-09-26 в 14:07, admin, рубрики: c++, cache, MapReduce, Алгоритмы, Блог компании InterSystems, здравый смысл, капитан очевидность

Если Вы последние 10 лет провели на удаленном острове, без интернета и в отрыве от цивилизации, то специально для Вас мы попытаемся еще раз рассказать про концепцию MapReduce. Введение будет небольшим, в объеме достаточном, для реализации концепции MapReduce в среде InterSystems Caché. Если же Вы не сильно далеко удалялись последние 10 лет, то сразу переходите ко 2ой части, где мы создаем основы инфраструктуры.

Читать полностью »

Распределенные вычисления в Elixir — классический пример MapReduce

2016-09-25 в 16:53, admin, рубрики: Elixir, erlang, Erlang/OTP, map reduce, MapReduce

Распределенные вычисления в Elixir

Elixir и Erlang идеально подходят для создания распределенных приложений, выполняющих параллельно несколько, возможно схожих задач. Поддержка многих конкурентных процессов работающих в изоляции была одним из основных аспектов при разработке виртуальной машины языка Erlang.

Постараемся проверить эту возможность использовать потенциал многоядерного процессора на простом примере. Подчитаем сколько раз встечается слово "лошадь" в рассказах писателя О. Генри размещенных в текстовых файлах в одной директории. Технически, мы будем считать количество вхождения последавательности символов "лошадь", а не слова, и тоьлко в нижнем регистре.

Читать полностью »

Big Data от A до Я. Часть 5.2: Продвинутые возможности hive

2016-07-18 в 11:12, admin, рубрики: big data, Hive, MapReduce, Блог компании DCA (Data-Centric Alliance)

Привет! В этой статье мы продолжим рассматривать возможности hive — движка, транслирующего SQL-like запросы в MapReduce задачи.

В предыдущей статье мы рассмотрели базовые возможности hive, такие как создание таблиц, загрузка данных, выполнение простых SELECT-запросов. Теперь поговорим о продвинутых возможностях, которые позволят выжимать максимум из Hive.

Читать полностью »

Big Data от A до Я. Часть 5.1: Hive — SQL-движок над MapReduce

2016-05-11 в 9:40, admin, рубрики: Apache Hive, big data, Hadoop, Hive, MapReduce, sql, Блог компании DCA (Data-Centric Alliance)

Привет! Мы продолжаем наш цикл статьей, посвященный инструментам и методам анализа данных. Следующие 2 статьи нашего цикла будут посвящены Hive — инструменту для любителей SQL. В предыдущих статьях мы рассматривали парадигму MapReduce, и приемы и стратегии работы с ней. Возможно многим читателям некоторые решения задач при помощи MapReduce показались несколько громоздкими. Действительно, спустя почти 50 лет после изобретения SQL, кажется довольно странным писать больше одной строчки кода для решения задач вроде «посчитай мне сумму транзакций в разбивке по регионам».

С другой стороны, классические СУБД, такие как Postgres, MySQL или Oracle не имеют такой гибкости в масштабировании при обработке больших массивов данных и при достижении объема большего дальнейшая поддержка становится большой головоной болью.

Собственно, Apache Hive был придуман для того чтобы объеденить два этих достоинства:

Масштабируемость MapReduce
Удобство использования SQL для выборок из данных.

Под катом мы расскажем каким образом это достигается, каким образом начать работать с Hive, и какие есть ограничения на его применения.
Читать полностью »

Hadoop, часть 3: Pig, обработка данных

2014-03-11 в 7:41, admin, рубрики: big data, Hadoop, MapReduce, pig, selectel, Блог компании Селектел, метки: big data, Hadoop, MapReduce, pig, selectel

des-48-5

В предыдущей публикации мы подробно рассмотрели процесс сбора данных при помощи специализированного инструмента Flume. Но чтобы полноценно работать с информацией, мало ее просто собрать и сохранить: ее нужно обработать и извлечь из нее нечто нужное и полезное.

Для обработки данных в Hadoop используется технология MapReduce.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «MapReduce» - 2

Поиск Яндекса с инженерной точки зрения. Лекция в Яндексе

Как писать меньше кода для MR, или Зачем миру ещё один язык запросов? История Yandex Query Language

Когда старый MapReduce лучше нового Tez

MapReduce в Qt Concurrent

YT: зачем Яндексу своя MapReduce-система и как она устроена

Какую задачу мы решаем?

Какая-такая Data? Или ещё раз про MapReduce

Распределенные вычисления в Elixir — классический пример MapReduce

Big Data от A до Я. Часть 5.2: Продвинутые возможности hive

Big Data от A до Я. Часть 5.1: Hive — SQL-движок над MapReduce

Hadoop, часть 3: Pig, обработка данных