Это вторая часть цикла публикаций, где мы говорим не о теории искусственного интеллекта, а о суровой реальности его внедрения в бизнес. В первой части мы обсуждали стратегические ловушки (https://habr.com/ru/articles/969094/), а теперь настал черед уровня данных, который оказался для нас минным полем.
Рубрика «Hadoop»
Искусственный интеллект без иллюзий: как не сжечь бюджет компании на хайпе (Часть 2)
2025-12-07 в 20:17, admin, рубрики: data mesh, Hadoop, llmСекреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML
2025-04-24 в 12:42, admin, рубрики: AI, arenadata, DataLake, Hadoop, livy, spark, витрина данных, ПлатформаПривет! Я Дмитрий Жихарев, CPO Платформы искусственного интеллекта RAISA в Лаборатории ИИ РСХБ-Интех. В этой статье я и архитектор нашей платформы Александр Рындин @aryndin9999расскажем о том, как мы построили взаимодействие Платформы ИИ и Озера данных для работы с витринами данных моделей машинного обучения с использованием Spark.
Hadoop на микросервисах или история одного пет-проекта
2025-02-25 в 11:16, admin, рубрики: docker, Hadoop, KNOX, rangerОпыт Звука: как реализовать рекомендательную систему аудиокниг с использованием больших языковых моделей (LLM)
2024-12-26 в 10:48, admin, рубрики: Hadoop, llm, ml, presto, pyspark, python, qdrant, recsys, s3, векторы
Всем привет! На связи Дмитрий Берестнев, Chief Data Scientist в HiFi-стриминге ЗвукЧитать полностью »
2003–2023: Краткая история Big Data
2022-12-04 в 10:00, admin, рубрики: Apache, AWS, big data, data engineering, GCP, Hadoop, Microsoft Azure, ruvds_перевод, spark, sql, Блог компании RUVDS.com, Большие данные, хранилища данных
Большие данные (Big Data) и, в частности, экосистема Hadoop появились немногим более 15 лет назад и развились к сегодняшнему дню так, как мало кто мог тогда предположить.
Ещё только появившись, опенсорсный Hadoop сразу стал популярным инструментом для хранения и управления петабайтами данных. Вокруг него сформировалась обширная и яркая экосистема с сотнями проектов, и он до сих пор используется многими крупными компаниями, даже на фоне современных облачных платформ. В текущей статье я опишу все эти 15 лет1 эволюции экосистемы Hadoop, расскажу о её росте в течение последнего десятилетия, а также о последних шагах в развитии сферы больших данных за последние годы.
Так что пристегнитесь и настройтесь на путешествие во времени вглубь 20 последних лет, поскольку наша история начинается в 2003 году в маленьком городке к югу от Сан-Франциско…
Дисклеймер: изначально я планировал оформить статью логотипами упоминаемых в ней компаний и программ, но на TDS запрещено обширное использование логотипов, поэтому я решил украсить содержание случайными изображениями и справочной информацией. Весело вспоминать, где мы в те времена находились и чем занимались.
Что в глубинах Data Lake? Строим архитектуру, укладываем слои, распределяем ответственность
2022-03-15 в 12:52, admin, рубрики: big data, data governance, data lake, data mesh, Hadoop, Администрирование баз данных, архитектура, базы данных, Блог компании МТС, хранение данных, хранилища данных, хранилище данных
Для создания Data Lake нужен итерационный подход – agile и все, что с этим связано. Еще необходимо правильно организовать работу команд, синхронизировать их распределить ответственность между участниками. Тогда получится прямая связь между пользователями и людьми, которые развивают витрины данных или домены. В этой статье поговорим о задачах, архитектуре и проблемах развития Data lake, а также обсудим способы решения возникающих проблем, специфику процессов и перспективы развития. Читать полностью »
Apache Software Foundation опубликовала релиз платформы Apache Hadoop 3.3.0
2020-08-03 в 13:30, admin, рубрики: Apache, Hadoop, Блог компании Selectel, высокая производительность, оборудование, сервисы, Софт
Apache Software Foundation выпустила свежий релиз своей платформы — Apache Hadoop 3.3.0. С момента последнего обновления прошло полтора года. Сама платформа представляет собой инструмент для организации распределенной обработки больших объемов данных с использованием MapReduce. Hadoop включает в себя набор утилит, библиотек и фреймворков для разработки и выполнения распределенных программ, которые способны работать на кластерах из тысяч узлов.
Для Hadoop создана специализированная файловая система Hadoop Distributed File System (HDFS), которая обеспечивает резервирование данных и оптимизацию работы MapReduce-приложений. HDFS предназначена для хранения файлов больших размеров, распределенных между отдельными узлами вычислительного кластера. Благодаря своим возможностям Hadoop используется крупнейшими компаниями и организациями. Google даже предоставила Hadoop право на использование технологий, которые затрагивают патенты, связанные с методом MapReduce.
Читать полностью »
«Hadoop. ZooKeeper» из серии Технострима Mail.Ru Group «Методы распределенной обработки больших объемов данных в Hadoop»
2020-02-05 в 8:28, admin, рубрики: devops, Hadoop, zookeeper, распределенные системыПредлагаю ознакомиться с расшифровкой лекции "Hadoop. ZooKeeper" из серии "Методы распределенной обработки больших объемов данных в Hadoop"
Что такое ZooKeeper, его место в экосистеме Hadoop. Неправда о распределённых вычислениях. Схема стандартной распределённой системы. Сложность координации распределённых систем. Типичные проблемы координации. Принципы, заложенные в дизайн ZooKeeper. Модель данных ZooKeeper. Флаги znode. Сессии. Клиентский API. Примитивы (configuration, group membership, simple locks, leader election, locking без herd effect). Архитектура ZooKeeper. ZooKeeper DB. ZAB. Обработчик запросов.
Говорят, все аналитики больших данных идут в телеком. А что они там делают?
2019-12-03 в 14:41, admin, рубрики: big data, Hadoop, Блог компании Мой круг, Карьера в IT-индустрии, Мегафон, Мой круг, хабр карьера
Самые большие телеком-компании нашей страны давно перестали считать себя исключительно телеком-компаниями — теперь это одни из главных игроков ИТ-индустрии. Они вынуждены меняться потому что меняется мир. Телефоны в нем называются телефонами по традиции, и функцию звонков туда добавляют, кажется, только по привычке. День, когда выйдет телефон без возможности «позвонить голосом», никто и не заметит.
Операторы соревнуются скоростью интернета больше, чем качеством звонков. Они придумывают новые и новые виды услуг — а самое главное очень много вкладывают в исследование данных.
Маленькие стартапы, которые ищут дата-саентистов, жалуются, что предложения больших корпораций не перебить. Причем не только денежные — просто такого количества данных и масштаба задач, как у телеком-операторов, мало где еще можно найти.
В этом выпуске мы поговорили с сотрудниками отдела больших данных в МегаФоне — что они делают, какие используют инструменты и как нанимают людей. Кстати, судя по оценке на «Моём круге», сотрудники ценят МегаФон за комфортные условия труда, интересные задачи, современность используемых в работе технологий и за отличные отношения в коллективе. Читать полностью »
Новое в Hadoop: познакомимся с различными форматами файлов в Hadoop
2019-08-26 в 16:59, admin, рубрики: big data, Column-oriented, Hadoop, Map-файл, ORC-файл, ORCFile, parquet, RC-файл, RCFile, Row-oriented, Sequence-файл, Блог компании OTUS. Онлайн-образование, форматы файловВсем привет! Публикуем перевод статьи, подготовленный для студентов новой группы курса «Data Engineer». Если интересно узнать, как построить эффективную и масштабируемую систему обработки данных с минимальными затратами, посмотрите запись мастер-класса Егора Матешука!

Несколько недель назад я написал о Hadoop статью, где осветил различные его
части и разобрался в том, какую роль он играет в области data engineering. В этой статье я
дам краткое описание различных файловых форматов в Hadoop. Это быстрая и легкая
тема. Если вы пытаетесь понять, как работает Hadoop и какое место он занимает в работе
Data Engineer, ознакомьтесь с моей статье о Hadoop здесь.Читать полностью »
