Рубрика «MapReduce»

Как заставить LLM проанализировать хранилище из тысяч заметок, которое не влезает в контекст

2026-06-29 в 11:46, admin, рубрики: llm, MapReduce, obsidian, Ollama, openrouter, rag, TypeScript, аудит базы знаний, плагин

Читать полностью »

Распределенные вычисления в Apache Ignite 3

2025-10-09 в 10:16, admin, рубрики: apache ignite 3, colocated computations, distributed computing, in-memory database, java, MapReduce, коллокационные вычисления, распределённые вычисления

Автор статьи: Антон Паняев, Java-разработчик

В статье разбираются возможности распределённых вычислений в Apache Ignite 3Читать полностью »

«Невозможный» параллельный алгоритм неотрицательной суммы

2022-01-02 в 7:02, admin, рубрики: forkjoin, haskell, java, java streams, MapReduce, sql, sum, ассоциативность, магия, моноид, параллельное программирование, параллельные вычисления, Программирование

Сумма целых чисел — что может быть проще? Сумма есть в SQL, в Java Stream API… в крайнем случае напишем сами. Как и всякая абстракция, она расходится с реальностью.

Вот счёт клиента в банке, по нему движения — положительные пополнения и отрицательные списания — в сумме дают текущий баланс. Так сумма работает в идеальном мире. А в реальности при большом минусе банк с отсрочкой, но предпримет нетривиальные действия вплоть до обращения в суд, чтобы закрыть финансовую брешь.

static long usualSum(LongStream changes) {
    return changes.reduce(0, (a, b) -> a + b);
}

Читать полностью »

Тестирование и отладка MapReduce

2018-12-12 в 9:27, admin, рубрики: big data, Hadoop, MapReduce, Блог компании Ростелеком, хранение данных

В «Ростелекоме» мы используем Hadoop для хранения и обработки данных, загруженных из многочисленных источников с помощью java-приложений. Сейчас мы переехали на новую версию hadoop с Kerberos Authentication. При переезде столкнулись с рядом проблем, в том числе и с использованием YARN API. Работа Hadoop с Kerberos Authentication заслуживает отдельной статьи, а в этой мы поговорим об отладке Hadoop MapReduce.

Тестирование и отладка MapReduce - 1
Читать полностью »

Дружба, благодаря которой Google вырос до огромных размеров

2018-12-06 в 15:21, admin, рубрики: Google Brain, Hadoop, MapReduce, TensorFlow, анб, высокая производительность, Джефф Дин, машинное обучение, парное программирование, поисковые технологии, Санджай Гемават, Совершенный код

Дружба, благодаря которой Google вырос до огромных размеров - 1 Программируя вместе за одним компьютером, Джефф Дин и Санджай Гемават изменили курс компании — и весь Интернет. На иллюстрации: лучшие программисты Google иногда кажутся двумя полушариями одного мозга. Рисунок Дэвида Планкерта

Однажды в марте 2000 года шесть лучших инженеров Google собрались в импровизированном конференц-зале. Произошло ЧП: с октября 1999 года остановились краулеры. Хотя пользователям ещё выдавали поисковые результаты, но они устарели на пять месяцев. На карту было поставлено больше, чем предполагали инженеры. В данный момент Ларри Пейдж и Сергей Брин вели переговоры о поставке поиска Google на крупнейший в интернете портал Yahoo и обещали увеличить поисковый индекс в десять раз, чтобы идти в ногу со Всемирной паутиной, которая за предыдущий год удвоилась в размере. Если краулеры не починят, google.com застрянет в прошлом, сделка с Yahoo может провалиться, а компания рискует сжечь полученные инвестиции и кануть в небытие.
Читать полностью »

Используем Apache Ignite в быту

2017-10-20 в 6:45, admin, рубрики: .net, Apache, big data, BigData, C#, gridgain, Ignite, java, MapReduce, nosql, sql, Блог компании GridGain

В продолжение темы «доступным языком про Ignite / GridGain», начатой в предыдущем посте (Для чего нужен Apache Ignite), давайте рассмотрим примеры использования продукта «для простых смертных».

Терабайты данных, кластеры на сотни машин, big data, high load, machine learning, микросервисы и прочие страшные слова — всё это доступно Ignite. Но это не значит, что он не годится для менее масштабных целей.

Сегодня мы рассмотрим, как Ignite может легко хранить любые ваши объекты, обмениваться ими по сети и обеспечивать взаимодействие .NET и Java.

Apache Ignite.NET

Читать полностью »

Лекция о двух библиотеках Яндекса для работы с большими данными

2017-07-10 в 13:14, admin, рубрики: big data, cascading, etl, Hadoop, MapReduce, YT, библиотеки, Блог компании Яндекс, логи, Промышленное программирование, сырые данные, фильтрация

Пару недель назад в Яндексе прошла встреча PyData, посвящённая анализу больших данных с использованием Python. В том числе на этой встрече выступил Василий Агапитов — руководитель группы разработки инструментов аналитики Яндекса. Он рассказал о двух наших библиотеках: для описания и запуска расчетов на MapReduce и для извлечения информации из логов.

Под катом — расшифровка и часть слайдов.

Читать полностью »

Для чего нужен Apache Ignite – GridGain, на примере .NET & C#

2017-05-16 в 10:49, admin, рубрики: .net, Apache, big data, BigData, gridgain, Ignite, java, MapReduce, Microservices, nosql, sql

В последнее время имена GridGain и Apache Ignite нередко мелькают в интернетах. Однако, судя по комментариям (например, здесь), мало кто понимает, что же это за продукт и с чем его едят.

В этой статье я попытаюсь доступным языком объяснить, и на примерах кода показать, что умеет Apache Ignite.

Apache Ignite Logo

Читать полностью »

Класс удаленного прокси — это не (очень) больно

2016-11-14 в 13:24, admin, рубрики: big data, MapReduce, nosql, remote proxy, Блог компании InterSystems, метки: remote proxy

(Динамическая диспетчеризация спешит на помощь)

После нескольких статей про MapReduce нам показалось необходимым еще раз отойти в сторону и поговорить про инфраструктуру, которая поможет облегчить построение решения MapReduce. Мы, по-прежнему, говорим про InterSystems Caché, и, по-прежнему, пытаемся построить MapReduce систему на базе имеющихся в системе подручных материалов.

На определенном этапе написания системы, типа MapReduce, встает задача удобного вызова удаленных методов и процедур (например, посылка управляющих сообщений с контроллера на сторону управляемых узлов). В среде Caché есть несколько простых, но не очень удобных методов достичь этой цели, тогда как хочется бы получить именно удобный.

Читать полностью »

MapReduce из подручных материалов. Часть III – собираем все вместе

2016-10-17 в 10:37, admin, рубрики: big data, DIY, intersystems cache, MapReduce, mapreduce на коленке, nosql, sql, Блог компании InterSystems, здравый смысл

В первой (достаточно капитанской) части этой серии мы рассказали про базовые концепции MapReduce почему это плохо, почему это неизбежно, и как с этим жить в других средах разработки (если вы не про Си++ или Java). Во второй части мы-таки начали рассказывать про базовые классы реализации MapReduce на Caché ObjectScript, введя абстрактные интерфейсы и их первичные реализации.
Сегодня пришел наш день! – мы покажем первый пример собранный в парадигме MapReduce, да, он будет странный и не самый эффективный, и совсем не распределенный, но вполне MapReduce.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «MapReduce»

Как заставить LLM проанализировать хранилище из тысяч заметок, которое не влезает в контекст

Распределенные вычисления в Apache Ignite 3

«Невозможный» параллельный алгоритм неотрицательной суммы

Тестирование и отладка MapReduce

Дружба, благодаря которой Google вырос до огромных размеров

Используем Apache Ignite в быту

Лекция о двух библиотеках Яндекса для работы с большими данными

Для чего нужен Apache Ignite – GridGain, на примере .NET & C#

Класс удаленного прокси — это не (очень) больно

(Динамическая диспетчеризация спешит на помощь)

MapReduce из подручных материалов. Часть III – собираем все вместе