- PVSM.RU - https://www.pvsm.ru -

Привет! MLOps пробрался даже в fashion-индустрию. И не говорите после этого, что работа с большими данными и ML — это немодно! В новом выпуске дайджеста — вновь «золотые» статьи по ML, AI и дата-аналитике. По классике начинаем с объемных образовательных статьей, а заканчиваем новинками «железа» от Nvidia и результатами отчетов по рынку (есть и на русском языке!). Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь» [1].
Используйте навигацию, если не хотите читать текст полностью:
→ Теория [2]
→ Практика [3]
→ Инструменты [4]
→ Инфраструктура [5]
→ Обзор рынка [6]
→ Исследования [7]
→ Видео [8]
В прошлом дайджесте [10] я писал про курс по LLM от Arize AI, а тут уже целый университет от Cohere. В каждой главе есть видео и текстовые материалы — можно выбрать удобный формат обучения. Курс подойдет и для новичков, и для продвинутых разработчиков, которые по структуре почти ничем от Arize не отличается, сделано хорошо. Всего в университете 4 модуля:
Вводная статья по LangChain из курса LangChain 101. В ней автор рассказывает об основных компонентах фреймворка и показывает примеры его использования. Подойдет тем, кто еще не погружался в тему.

Основные компоненты LangChain.
Отличная статья про развитие аналитических инструментов в терминологии эволюционной теории — с использованием дивергентного и конвергентного подхода. Авторы показывают, какие изменения произошли в инструментарии и архитектуре решений при переходе между тремя ключевыми этапами их развития:

Небольшой ликбез по способам и особенностям масштабирования баз данных. Рассматриваются два больших блока — стратегии чтения и записи. Для чтения рассмотрели механизмы кэширования, репликации с первичной и вторичной БД, а также индексирование для поиска и быстрого доступа к данным. Для записи — стратегии шардирования и альтернативные варианты вроде использования NoSQl.
Тем, кто работает в небольшой команде, рекомендую почитать эту статью. Автор показывает, как с помощью Excel-заменителя Grist [15] и BI в виде Metabase сделать аналог аналитической системы. В целом, довольно познавательно. Хотя, признаюсь, развертываемый «Excel» я еще не видел.
Интересный подход к оценке уровня зрелости аналитики в компании от ребят из СберМаркета. В статье они поделились предпосылками data-культуры, их подходом к расчету и планами по развитию методологии. А также пытались ответить на главный вопрос: «Какими должны быть данные в компании, чтобы считать себя data driven?».
Выделили 3 основных элемента для оценки:
На Хабре вышел обзор полезных фишек в ClickHouse и особенностей его SQL-диалекта. Или, как пишет автор, «Things I wish I knew». Внутри — целая ода этой СУБД. Автор использует его около 8 лет и за это время не раз убедилась, что ClickHouse идеально подходит для быстрой аналитики.
Неплохая подборка альтернатив Fivetran для извлечения, преобразования и загрузки данных. Среди инструментов — Portable.io, Estuary.dev, Airbyte и Matillion. Как и бывает в подборках, автор рассказывает о ключевых особенностях, преимуществах и недостатках каждого решения.
Мы собрали на сайте все релевантные для AI продукты: вычислительные серверы с мощным GPU, преднастроенные виртуальные образы и другие инструменты, которые помогают решать AI- и ML-задачи быстрее. А чтобы эта страница была действительно полезной и удобной, добавили общую схему их взаимосвязи.
Nvidia хвастается своими достижениями в главном бенчмарке для ML-задач. И неспроста: в MLPerf Training v3.0 ее платформа на базе H100 Tensor Core [21] установила новые рекорды производительности. А также — двукратный прирост по сравнению с A100 и трехкратный в работе с BERT.

У AWS вышла новая конфигурация виртуальных серверов на базе Nvidia под названием p5.48xlarge. Стоимость пока неизвестна. В нем:
Вот такое теперь суровое настоящее для тех, кто хочет свою LLM.

Аналитическая платформа ThoughtSpot [24] покупает BI-инструмент Mode [25]. Это четвертое приобретение ThoughtSpot после покупки компании SeekWell в марте 2021 года и Diyotta в мае того же года. Интересно, мне одному кажется, что на рынке происходит «укрупнение» поставщиков за счет покупки платформами более мелких игроков?
Подъехал очередной «убийца» Excel — Sourcetable [27]. Его автор Eoin McMillan утверждает, что существующие на рынке решения не реализуют высокий потенциал электронных таблиц, поэтому решил создать собственное. Недавно компания привлекла раунд инвестиций в размере $3M. Сможет ли Sourcetable заменить таких гигантов, как Microsoft Excel и Google Sheets — вопрос, как мне кажется, риторический. Как говорится, если не можешь победить зло — присоединись к нему.
Результат исследования современных архитектур для отработки данных, проведенного несколькими аналитическими агентствами. В превью есть краткая выжимка того, чем озабочены респонденты: облачные DWH, realtime-аналитика, выбор правильного подхода организации аналитики (LakeHouse, Data Mesh, Data Fabric, etc), прикладной AI/ML поверх этого всего. Особо любознательные могут скачать полный отчет в pdf в обмен на контакты.
Специалисты из CNews поделились результатами ежегодного исследования рынка аналитических решений. Среди них — традиционный топ поставщиков, прогнозы рынка и выводы. Так, они подсчитали, что рынок больших данных и бизнес-аналитики растет примерно на 30% в год и основной драйвер этого — импортозамещение.
Продолжительность: 36 минут
Доклад от представителей ML-направления Gucci про их production ML. Точнее, как они с нуля реализовали принципы MLOps в своих проектах, используя Databricks. Презентация, конечно, красивая, но особых откровений не было. Однако всегда интересно посмотреть, как устроены процессы у других.
Продолжительность: 19 минут
Все чаще повседневные действия решаются алгоритмами с AI. Однако со временем AI-модели деградируют и их результаты становится сильно хуже. И Если вовремя этого не заметить, компания начнет терять деньги. В докладе Krishna Gad, CEO fiddler, рассказывает про различные аспекты мониторинга моделей, уделяя внимание ответственному подходу работы с алгоритмами AI. Получилось наглядно и не без сложных формул.
Автор: Stas Valuev
Источник [35]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/selectel/386810
Ссылки в тексте:
[1] Telegram-сообществе «MLечный путь»: https://slc.tl/ttl6m
[2] Теория: #1
[3] Практика: #2
[4] Инструменты : #3
[5] Инфраструктура: #4
[6] Обзор рынка: #5
[7] Исследования: #6
[8] Видео: #7
[9] Cohere LLM University: https://docs.cohere.com/docs/llmu
[10] прошлом дайджесте: https://habr.com/ru/companies/selectel/articles/752458/
[11] LangChain 101: Part 1. Building Simple Q&A App: https://towardsai.net/p/machine-learning/langchain-101-part-1-building-simple-qa-app
[12] Evolution of the Data Landscape: https://www.kdnuggets.com/2023/06/evolution-data-landscape.html
[13] Databases Scaling Strategies: https://dzone.com/articles/databases-scaling-strategies
[14] Аналитика небольших данных: как совместить Excel, Python и SQL с помощью инструментов с открытым исходным кодом: https://habr.com/ru/articles/751352/
[15] Grist: https://github.com/gristlabs/grist-core
[16] Как мы посчитали уровень Data Driven’ности в компании и вклад в него каждого аналитика?: https://habr.com/ru/companies/sbermarket/articles/745868/
[17] ClickHouse: полезные лайфхаки: https://habr.com/ru/articles/743772/
[18] 4 Alternatives to Fivetran: The Evolving Dynamics of the ETL & ELT Tool Market: https://www.theseattledataguy.com/4-alternatives-to-fivetran-the-evolving-dynamics-of-the-etl-elt-tool-market/
[19] Искусственный интеллект и машинное обучение в Selectel: https://selectel.ru/solutions/artificial-intelligence-machine-learning/
[20] Breaking MLPerf Training Records with NVIDIA H100 GPUs: https://developer.nvidia.com/blog/breaking-mlperf-training-records-with-nvidia-h100-gpus/
[21] H100 Tensor Core: https://www.nvidia.com/en-us/data-center/h100/
[22] NVIDIA H100 GPUs Now Available on AWS Cloud: https://blogs.nvidia.com/blog/2023/07/26/aws-cloud-h100/
[23] ThoughtSpot acquires Mode Analytics, a BI platform, for $200M in cash and stock: https://techcrunch.com/2023/06/26/thoughtspot-acquires-mode-analytics-a-bi-platform-for-200m-in-cash-and-stock/
[24] ThoughtSpot: https://www.thoughtspot.com/
[25] Mode: https://mode.com/
[26] Sourcetable raises $3M, claiming the future of spreadsheets is spreadsheets: https://techcrunch.com/2023/07/10/sourcetable-seed-investment/
[27] Sourcetable: https://www.sourcetable.com/
[28] Latest Unisphere Research Survey Reveals Top Data Architecture Trends for 2023 and Beyond: https://www.dbta.com/Editorial/Trends-and-Applications/Latest-Unisphere-Research-Survey-Reveals-Top-Data-Architecture-Trends-for-2023-and-Beyond-159276.aspx
[29] Аналитика 3.0 — 2023: https://www.cnews.ru/reviews/analitika_30_2023
[30] MLOps at Gucci: From Zero to Hero: https://www.youtube.com/watch?v=mq3IxO_toDA
[31] Minimize Risks and Accelerate MLOps with Model Performance Monitoring and Explainability: https://www.youtube.com/watch?v=P0nSTYMZ-QQ
[32] Image: https://slc.tl/0353w
[33] Image: https://slc.tl/jidfs
[34] Image: https://slc.tl/u5w01
[35] Источник: https://habr.com/ru/companies/selectel/articles/756644/?utm_source=habrahabr&utm_medium=rss&utm_campaign=756644
Нажмите здесь для печати.