- PVSM.RU - https://www.pvsm.ru -

Привет всем, кто работает с ML-моделями и занимается аналитикой данных! В новом дайджесте для вас много интересных обзоров по инструментам — как говорится, ни ClearML и Airflow едиными. Рынок решений стремительно развивается, и наши подборки помогут вам держать руку на пульсе. Еще больше полезных текстов по DataOps и MLOps публикуем в Telegram-сообществе «MLечный путь» [1].
Как вам, кстати, ренессансная GPU на обложке, которую сгенерила нейросеть для блога Andreesen and Horowitz? Что тут сказать — просто поделитесь промтом.
Используйте навигацию, чтобы перейти к интересующему вас блоку:
→ Теория [2]
→ Практика [3]
→ Исследования [4]
→ Мнение [5]
→ Инструменты [6]
На Medium вышел подробный лонгрид по Transformer-архитектуре нейронных сетей. Объем и содержание текста впечатляет. Здесь и таксономия, и математика, и пояснительные визуализации. Если хотите разобраться в технологии, этот лонгрид точно займет вас на ближайшие несколько дней.
В статье перевели на человеческий и разобрали результаты исследования о времени деградации моделей. Исследование провели уважаемые ученые из MIT, Гарварда, Кембриджа, Университета Монтеррея — ссылка на первоисточник прилагается. В тексте приведены все графики и пояснения к ним. Особенно интересно почитать про типы возникающих проблем и рекомендации, как выстроить работу с ML-моделями, чтобы не стать жертвой их деградации. Например, авторы рекомендуют ставить оповещения на момент, когда пора переобучать модель. Или разработать/внедрить эффективный и надежный механизм автоматического переобучения моделей (привет, MLOps!).
В этой статье разбирают типы аналитических команд: централизованные, децентрализованные и теневые. Фокус в тексте делается на последнем. Теневые команды не занимаются полноценным дата-инжинирингом — скорее «костылят» и копят технический долг. Они появляются, когда бизнес нанимает еще одну команду аналитиков (скорее даже дата-сайентистов) в добавок к основной с целью уменьшить time to market для новых фичей и моделей. Лично у меня появляется вопрос, как сохранять баланс между скоростью получения данных и их качеством. Возможно, про это расскажут в следующей части статьи. Бонусом автор рассматривает, как поменялись аналитические системы за последние два десятилетия, и, что самое интересное, описывает, какие их элементы практически не поменялись.

Порочный круг работы дата-сайентиста. Источник [8]
В тексте подробно и с картинками рассказывают про работу с инцидентами в аналитических командах. В целом, отличий от аналогичной работы в других сферах мало. Сначала выявляем, потом сообщаем о фактах и выясняем корневую причину. Исправляем и делаем выводы, в идеале – улучшаем процессы. Но, как и везде, есть свои нюансы.
Время текстов с Хабра. На этот раз был замечен кейс коллег из «Контура» — в ряде продуктов они используют ML-модели. В тексте с неоновыми котиками на обложке довольно четко и толково расписали структуру пайплайна. Особенно интересно, что используют ClearML, кластер Ceph и ONNX. Про последний мы писали в обзоре инструментов [11] для ускорения вывода ML-моделей в продакшен.
А тут у нас представлен кейс от производителей автомобилей NIO из Китая. У них история, которую я где-то уже видел: эволюция аналитического стека, который завершился хэппи-эндом с использованием СУБД Apache Doris. При этом стадии эволюции «Druid → TiDB → ClickHouse → Doris» мне точно встречались в статьях других компаний из поднебесной. Можно ли рассматривать это как тенденцию? Как бы то ни было, ребята описали плюсы и минусы использования каждой СУБД конкретно в их кейсе — может, кому-то пригодится.
Коллеги из CedrusData, которые разрабатывают аналитическую систему на основе Trino, рассказали про MPP, или массивно-параллельные вычисления. Собственно, сам Trino — это распределенный аналитический SQL-движок для выполнения федеративных запросов. На его примере нам и предложено погрузиться в тему и основные принципы работы этого класса инструментов.
Компания Arize AI провела исследование вокруг Large Language Models (LLM). Выяснилось, что 53,5% респондентов планируют добавить LLM в прод в ближайший год. Это, в свою очередь, может подстегнуть развитие MLOps и культуры проектирования ML-систем. Ведь LLM руками из Jupyter в прод не закатишь. Ну и prompt engineering тащит за собой среду разработки LangChain или векторные БД.
Не ожидал увидеть такой текст в блоге венчурного фонда Andreesen and Horowitz, но хайп есть хайп. Умные аналитики провели исследование и прикинули стоимость владения LLM. Помимо всего, в статье есть обзор провайдеров с ценами и рассуждения о тяжкой доле финансовых директоров. Жирным выделена фраза: There is no sign that the GPU shortage we have today will abate in the near future (дословно: «Нет никаких признаков того, что нехватка графических процессоров, которая у нас есть сегодня, снизится в ближайшем будущем»).
Отличное исследование инструментов для реализации потоковой обработки данных. По сути получилось подробное описание экосистемы вокруг Kafka и разных способов ее потребления — от self-hosted до PaaS и SaaS. Есть описание решений разных вендоров и альтернатив Kafka, а еще много красивых схем и картинок.

Landscape приложений для потоковой передачи данных. Источник [15]
Автор текста начинает с того, что практически заявляет: если плохо относитесь к изменениям — в дата-инженеры вам не надо. Ведь они постоянно сталкиваются с изменениями, инновациями и изобретанием велосипедов. Собственно, о велосипедах (зачеркнуто) инновациях и речь в тексте. В качестве самых свежих трендов рассматриваются три:
Очень интересно, но не все до конца понятно.
Если любите всякие тексты-сравнения, то вот он перед вами. Автор сравнивает между собой несколько моделей GPU: GTX 1070, Tesla T4, RTX A6000 и две RTX A6000. Методика тестирования устроит не всех, но докапываться до чисел, кажется, нет смысла. У нас на Хабре тоже, кстати, был текст, где мы сравнивали десктопные и серверные модели видеокарт [17] — он хотя бы на русском языке, если для вас это важно.
Выводы в тексте на Medium достаточно ожидаемые:
Добавим в эту копилку еще несколько советов. Если нужно одновременно выполнять несколько задач на GPU, то нужны профессиональные карты (MIG, Time Slicing). А если нужно делить GPU на виртуальные кусочки, то нужны профессиональные карты и лицензии GRID.
Под кликбейтным заголовком — продолжение поста трехлетней давности про переоцененность дашбордов. Предыдущий текст получил много внимания, и автор решил повторить успех. Как обычно бывает под такими заголовками, никто не умер, но есть некие предпосылки для того, чтобы перестать использовать дашборды как стандартный способ коммуникации аналитиков с бизнесом.
В эссе — мысли по поводу того, что дашборды — не всегда лучший способ донести информацию и ценность до бизнеса, а аналитики — не клепатели визуализаций. В общем-то, сложно с этим не согласиться.
BentoML активно развивается и интегрируется со сторонними инструментами. Недавно решение научилось использовать Triton Inference Server, а теперь интегрировалось с Kubeflow 1.7. Собственно, в тексте как раз показан пример использования BentoML в связке с этой платформой. Теперь можно отказаться от KServe как инструмента из коробки!
Следующий лот — Neptyne [20], очередная попытка переизобрести Excel/Google Sheets. На этот раз целевая аудитория — аналитики и дата-сайентисты, которые знают Python. Ключевая фишка продукта — возможность дополнять кнопки, доступные в интерфейсе, своими функциями. Например, затолкать набор ячеек в DataFrame, обработать с помощью Pandas или других библиотек и вывести в другой набор ячеек. Ну и куда без интерфейса для обращений к ChatGPT (или аналогичным сервисам)?
Знакомы ли вы с онлайн-аналогом Jupyter — Noteable [22]? Недавно они выпустили автоматическую генерацию визуализаций по пользовательским датасетам. Выглядит это все пока не сильно впечатляюще, но сама идея неплоха. Посмотреть можно вноутбуке с примерами [23].
Автор сравнивает самый популярный, по его мнению, оркестратор Airflow с новыми аналогами — Prefect и Mage. В итоге для новых проектов советуетMage [25]. Инструмент выглядит действительно интересно — эдакий Jupyter для пайплайнов. Причем писать можно как на Python и R, так и на SQL. Обратите внимание что доступ к тексту по ссылке платный, но есть бесплатная подписка на неделю — хватит, чтобы ознакомиться с текстом.
Mercury [27] — это еще одно решение для для того, чтобы «продуктолизировать» Jupyter-ноутбуки, превращая их в веб-приложения. В статье рассказывают, как работать с инструментом и что он вообще может. Разработчики пытаются обойти конкурента Streamlit по всем фронтам. Так, инструмент сразу интегрирован с Jupyter, умеет экспортировать PDF, может собирать презентации.
Если вы ищете инструмент для тестирования ML-моделей, то есть тут что-то интересное — Giskard. Во-первых, это open source и self-hosted. Также решение поддерживает возможность создания собственных test suite и его можно интегрировать в довольно большое количество ML-инструментов. В основе — коллаборативная модель поиска слабых мест с возможностью комментирования.
Время просмотра: 1 час 2 мин.
Познавательный вебинар от Эрика Сонди (Eric Sondi) — старшего менеджера в Arm (да-да, компании, которая разрабатывает процессоры на той самой архитектуре). В видео он рассказал про технологию Virtual Hardware и ближе к концу описал сценарии ее использования для MLOps. Показательно, что даже такие «железячники» уже начинают делать нативные решения для production ML.
Время просмотра: 51 мин.
Тексты по MLOps в нашей подборке уже становятся традицией. Что сказать — животрепещущая тема. При это каждый раз она раскрывается все хардкорнее. Как вам семинар о том, как развивают MLOps в CERN — знаменитом центре ядерных исследований? Это, конечно, не адронный коллайдер, но и тут без многоуровневых формул не обошлось. Самое то, если хотите почувствовать себя интеллектуально униженным.
Возможно, эти тексты тоже вас заинтересуют:
→ 6 дисплеев, 192 ядра и 3 ТБ ОЗУ DDR5: на что способен «ноутбук» от Mediaworkstations и другие подобные системы [30]
→ Что изменилось в инструментах OpenStack? Рассказываем о самых важных обновлениях в релизе Antelope [31]
→ Как улучшать продукты, опираясь на мнение пользователей, или загадка плавающего IP-адреса [32]
Автор: Stas Valuev
Источник [33]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/it-infrastruktura/384994
Ссылки в тексте:
[1] Telegram-сообществе «MLечный путь»: https://slc.tl/ttl6m
[2] Теория : #1
[3] Практика : #2
[4] Исследования : #3
[5] Мнение : #4
[6] Инструменты : #5
[7] 91% of ML Models Degrade in Time: https://towardsdatascience.com/91-of-ml-models-degrade-in-time-cfd467905615
[8] How Shadow Data Teams Are Creating Massive Data Debt: https://medium.com/@diogo22santos/how-shadow-data-teams-are-creating-massive-data-debt-d432113f4632
[9] Incident management for data teams: https://www.synq.io/blog/incident-management-for-data-teams
[10] Image: https://selectel.ru/services/cloud/davm/?utm_source=habr.com&utm_medium=referral&utm_campaign=cloud_article_mldigest_260523_banner
[11] обзоре инструментов: https://habr.com/ru/companies/selectel/articles/696782/
[12] Apache Druid, TiDB, ClickHouse, or Apache Doris? Comparing the OLAP Tools We Have Used: https://dzone.com/articles/apache-druid-tidb-clickhouse-or-apache-doris
[13] Как устроен massively parallel processing (MPP) в Trino: https://habr.com/ru/companies/cedrusdata/articles/729004/
[14] Navigating the High Cost of AI Compute: https://a16z.com/2023/04/27/navigating-the-high-cost-of-ai-compute/
[15] The Data Streaming Landscape 2023: https://dzone.com/articles/the-data-streaming-landscape-2023
[16] Pro GPU System vs Consumer GPU System for Deep Learning: https://towardsdatascience.com/pro-gpu-system-vs-consumer-gpu-system-for-deep-learning-a62bec69f557
[17] сравнивали десктопные и серверные модели видеокарт: https://habr.com/ru/companies/selectel/articles/703848/
[18] Dashboards are dead: 3 years later: https://taylor-count.medium.com/dashboards-are-dead-3-years-later-72347757bfa6
[19] Neptyne: The Programmable Spreadsheet: https://techcrunch.com/2023/03/27/y-combinator-backed-neptyne-is-building-a-python-powered-spreadsheet-for-data-scientists/
[20] Neptyne: https://neptyne.com/
[21] Introducing Data Prism, The Automatic Chart Builder: https://medium.com/@Elijah_Meeks/introducing-data-prism-the-automatic-chart-builder-26b5e72c9d5c
[22] Noteable: https://noteable.io/
[23] ноутбуке с примерами: https://app.noteable.io/f/50a55912-8e42-42d4-a95c-9cf15566c333/Understanding-Data-Prism.ipynb
[24] The Truth about Prefect, Mage, and Airflow: https://dataengineeringcentral.substack.com/p/the-truth-about-prefect-mage-and
[25] Mage: https://www.mage.ai/
[26] Build Elegant Web Apps Right From Jupyter Notebook with Mercury: https://towardsdatascience.com/build-elegant-web-apps-right-from-jupyter-notebook-with-mercury-78d9ebcbbcaf
[27] Mercury: https://github.com/mljar/mercury
[28] Quality Assurance for all AI models: https://www.giskard.ai/product
[29] MLOps: Going from Good to Great: http://cds.cern.ch/record/2855322
[30] 6 дисплеев, 192 ядра и 3 ТБ ОЗУ DDR5: на что способен «ноутбук» от Mediaworkstations и другие подобные системы: https://habr.com/ru/company/selectel/blog/726492
[31] Что изменилось в инструментах OpenStack? Рассказываем о самых важных обновлениях в релизе Antelope: https://habr.com/ru/company/selectel/blog/728972
[32] Как улучшать продукты, опираясь на мнение пользователей, или загадка плавающего IP-адреса: https://habr.com/ru/company/selectel/blog/728038
[33] Источник: https://habr.com/ru/companies/selectel/articles/737492/?utm_source=habrahabr&utm_medium=rss&utm_campaign=737492
Нажмите здесь для печати.