Рубрика «Apache»

2003–2023: Краткая история Big Data

2022-12-04 в 10:00, admin, рубрики: Apache, AWS, big data, data engineering, GCP, Hadoop, Microsoft Azure, ruvds_перевод, spark, sql, Блог компании RUVDS.com, Большие данные, хранилища данных

Когда, играя в ту или иную RPG, я оказываюсь в библиотеке, то обязательно перечитываю все книги на полках, чтобы лучше вникнуть во вселенную игры. Помнит кто-нибудь «Краткую историю империи» в Morrowind?

Большие данные (Big Data) и, в частности, экосистема Hadoop появились немногим более 15 лет назад и развились к сегодняшнему дню так, как мало кто мог тогда предположить.

Ещё только появившись, опенсорсный Hadoop сразу стал популярным инструментом для хранения и управления петабайтами данных. Вокруг него сформировалась обширная и яркая экосистема с сотнями проектов, и он до сих пор используется многими крупными компаниями, даже на фоне современных облачных платформ. В текущей статье я опишу все эти 15 лет¹ эволюции экосистемы Hadoop, расскажу о её росте в течение последнего десятилетия, а также о последних шагах в развитии сферы больших данных за последние годы.

Так что пристегнитесь и настройтесь на путешествие во времени вглубь 20 последних лет, поскольку наша история начинается в 2003 году в маленьком городке к югу от Сан-Франциско…

Дисклеймер: изначально я планировал оформить статью логотипами упоминаемых в ней компаний и программ, но на TDS запрещено обширное использование логотипов, поэтому я решил украсить содержание случайными изображениями и справочной информацией. Весело вспоминать, где мы в те времена находились и чем занимались.

Читать полностью »

Apache NiFi: как решить ошибки, которые не гуглятся

2022-06-07 в 7:11, admin, рубрики: Apache, big data, data, data engineering, NiFi, NiFi Deployment, Блог компании Группа НЛМК, хранение данных

Настройка и запуск Apache NiFi и Zookeeper, настройка авторизации по LDAP и работа NiFi по HTTPS, настройка и запуск Apache NiFi Registry, пример запуска NiFi c Kerberos — вот темы, которые будут в этой статье.

Apache NiFi: как решить ошибки, которые не гуглятся - 1

Не вижу смысла полностью рассказывать, как настраивать NiFi и NiFi Registry — есть официальная документация и мануалы в сети. Я сосредоточился на ошибках, информации по которым нет, в том числе и на английском. При самостоятельном поиске решения, это реально масса времени. Я провел месяцы в режиме DEBUG и TRACE, чтобы понять, как всё сделать правильно. Готов поделится.
Читать полностью »

И маленькому стартапу, и большому энтерпрайзу — Кафка, которую нужно знать

2022-02-25 в 13:51, admin, рубрики: Apache, apache kafka, Блог компании Southbridge, интервью, Программирование, системное администрирование

Читать полностью »

Как прикрутить SQL к чему угодно при помощи Apache Calcite

2021-09-17 в 7:17, admin, рубрики: Apache, Apache Calcite, Apache Ignite, sql, sql tips and tricks, базы данных, Блог компании Конференции Олега Бунина (Онтико), высокая производительность, конференции, распределенные системы, распределенные файловые системы

Сделать свою собственную SQL-базу данных или запускать SQL-запросы в NoSQL-базе данных — кажется, это очень непростая задача. А если мы говорим о распределенной БД, то сложность возрастает многократно. Но, к счастью, Apache Calcite — фреймворк с открытым кодом — поможет сделать это довольно легко.

Роман КондаковЧитать полностью »

Как поменять архитектуру облака и не поломать пользовательский опыт

2021-09-03 в 8:42, admin, рубрики: Apache, Apache Airflow, devops, архитектура приложений, архитектура системы, Блог компании Selectel, Блог компании Конференции Олега Бунина (Онтико), облака, облачные сервисы, облачные технологии, облачный сервис, цод

Читать полностью »

Apache Kafka — скоро без ZooKeeper

2021-04-16 в 5:05, admin, рубрики: Apache, apache kafka, apache zookeeper, zookeeper, Блог компании Southbridge, Программирование, системное администрирование

В основе Apache Kafka находится лог — простая структура данных, которая использует последовательные операции, работающие в симбиозе с оборудованием. Эффективное использование дискового буфера и кэша процессора, prefetch, передача данных zero-copy и много других радостей — все это благодаря построенной на логе структуре, которая славится своей эффективностью и пропускной способностью. Обычно эти преимущества, а еще базовая реализация в виде лога коммитов, — первое, что люди узнают о Kafka.

Код самого лога составляет относительно малую часть всей системы. Гораздо больше занимает код, который отвечает за организацию партиций (т. е. логов) на множестве брокеров в кластере — назначает лидеров, обрабатывает сбои и т. д. Этот код и делает Kafka надежной распределенной системой.

Раньше важной частью работы распределенного кода был Apache ZooKeeper. Он хранил самые важные метаданные системы: где находятся партиции, кто из реплик лидер и т. д. Читать полностью »

Гибриды побеждают или холивары дорого

2021-01-10 в 23:05, admin, рубрики: Apache, C#, devops, docker-compose, java, kafkaconnect, RabbitMQ, высокая производительность

Мотивом для написания данной статьи послужил тот факт, что на habr.com участилось появление материалов маркетингового характера про Apache Kafka. А также тот факт, что из статей складывается впечатление что пишут их немного далекие от реального использования люди — это конечно же только впечатление, но почему-то в большинстве своем статьи обязательно содержат сравнение Apache Kafka с RabbitMQ, причем не в пользу последнего. Что самое интересное — читая подобные статьи управленцы без технического бэкграунда начинают тратить деньги на внутренние исследования, чтобы ведущие разработчики и технические директора выбрали одно из решений. Так как я очень жадный/домовитый, а также так как я сторонник тезиса "В споре НЕ рождается истина" предлагаю вам ознакомится с другим подходом — почти без сравнения разных брокеров.

Читать полностью »

Как создать приложение для потоковой обработки данных при помощи Apache Flink

2020-12-05 в 9:44, admin, рубрики: Apache, Apache Flink, java, stream processing, Блог компании Издательский дом «Питер», высокая производительность, Программирование

Привет!

Среди рассматриваемых нами фреймворков для сложной обработки данных на Java есть и Apache Flink. Хотим предложить вам перевод неплохой статьи из блога Analytics Vidhya на портале Medium, чтобы оценить читательский интерес. Не стесняйтесь участвовать в голосовании!

Как создать приложение для потоковой обработки данных при помощи Apache Flink - 1
Читать полностью »

Apache Software Foundation опубликовала релиз платформы Apache Hadoop 3.3.0

2020-08-03 в 13:30, admin, рубрики: Apache, Hadoop, Блог компании Selectel, высокая производительность, оборудование, сервисы, Софт

Apache Software Foundation выпустила свежий релиз своей платформы — Apache Hadoop 3.3.0. С момента последнего обновления прошло полтора года. Сама платформа представляет собой инструмент для организации распределенной обработки больших объемов данных с использованием MapReduce. Hadoop включает в себя набор утилит, библиотек и фреймворков для разработки и выполнения распределенных программ, которые способны работать на кластерах из тысяч узлов.

Для Hadoop создана специализированная файловая система Hadoop Distributed File System (HDFS), которая обеспечивает резервирование данных и оптимизацию работы MapReduce-приложений. HDFS предназначена для хранения файлов больших размеров, распределенных между отдельными узлами вычислительного кластера. Благодаря своим возможностям Hadoop используется крупнейшими компаниями и организациями. Google даже предоставила Hadoop право на использование технологий, которые затрагивают патенты, связанные с методом MapReduce.
Читать полностью »

Погружение в Delta Lake: принудительное применение и эволюция схемы

2020-05-16 в 18:51, admin, рубрики: Apache, big data, DeltaLake, машинное обучение

Привет! Представляю вашему вниманию перевод статьи «Diving Into Delta Lake: Schema Enforcement & Evolution» авторов Burak Yavuz, Brenner Heintz and Denny Lee.

Данные, как и наш опыт, постоянно накапливаются и развиваются. Чтобы не отставать, наши ментальные модели мира должны адаптироваться к новым данным, некоторые из которых содержат новые измерения — новые способы наблюдать вещи, о которых раньше мы не имели представления. Эти ментальные модели мало чем отличаются от схем таблиц, определяющих, как мы классифицируем и обрабатываем новую информацию.

Это подводит нас к вопросу управления схемами. По мере того, как бизнес задачи и требования меняются со временем, меняется и структура ваших данных. Delta Lake позволяет легко внедрять новые измерения при изменении данных. Пользователи имеют доступ к простой семантике для управления схемами своих таблиц. Эти инструменты включают принудительное применение схемы (Schema Enforcement), которое защищает пользователей от непреднамеренного засорения своих таблиц ошибками или ненужными данными, а также эволюцию схемы (Schema Evolution), которая позволяет автоматически добавлять новые столбцы с ценными данными в соответствующие места. В этой статье мы углубимся в использование этих инструментов.

Понимание схем таблиц

Каждый DataFrame в Apache Spark содержит схему, которая определяет форму данных, такую как типы данных, столбцы и метаданные. С помощью Delta Lake схема таблицы сохраняется в формате JSON внутри журнала транзакций.
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «Apache»

2003–2023: Краткая история Big Data

Apache NiFi: как решить ошибки, которые не гуглятся

И маленькому стартапу, и большому энтерпрайзу — Кафка, которую нужно знать

Как прикрутить SQL к чему угодно при помощи Apache Calcite

Как поменять архитектуру облака и не поломать пользовательский опыт

Apache Kafka — скоро без ZooKeeper

Гибриды побеждают или холивары дорого

Как создать приложение для потоковой обработки данных при помощи Apache Flink

Apache Software Foundation опубликовала релиз платформы Apache Hadoop 3.3.0

Погружение в Delta Lake: принудительное применение и эволюция схемы

Понимание схем таблиц

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «Apache»

Понимание схем таблиц

Новости

Актуальные темы

Архив