Рубрика «AI» - 9

Всем привет! В этой небольшой статье хочу поделиться своим первым опытом работы с ML-моделями.

С чего все началось?

В начале 3 семестра я попал на проект ВУЗа, связанный с НС. Прошел курс по сеткам, пробежался по Pytorch и приступил к задачам на проекте. В процессе своего спринта решил параллельно изучать классический ML, где собственно выяснил, что "Hello world!" в мире машинного обучения является работа с датасетом титаник (предсказать выжил ли пассажир или нет). После этого ознакомился с Kaggle и полетел!

Titanic - Machine Learning from Disaster

При открытии "компетитив" сразу же наткнулся на тот самый Читать полностью »

Любой, кто пытался прикрутить LLM к реальному продакшену в узком домене (медицина, право, инженерия), проходил стадию отрицания: "Да ладно, сейчас промпт подкручу, RAG прикручу — и полетит".

Не полетит. 🙂

Читать полностью »

Это первая статья из цикла о построении CDC-пайплайна в домашней лаборатории.
Полный путь: Telegram → PostgreSQL → Debezium → Kafka → HDFS → DWH.
Но любой пайплайн начинается с данных — и эта статья про их получение.

Проблема

Хочу видеть свои расходы в нормальной аналитике, но банки не дают API для выгрузки операций. Можно руками вбивать каждую покупку в Excel — но это путь в никуда. Можно подключить агрегаторы типа Дзен-мани — но они требуют доступ к онлайн-банку, а я параноик.

Решение: скриншоты операций → распознавание → PostgreSQL → дальше CDC pipeline.

Кто я

Читать полностью »

GigaChat 3 Lightning: разбираем open source модель от Сбера - 1

Привет!

В конце прошлого года Сбер выложил GigaChat 3 в open source под MIT. Две модели: Ultra Preview на 702 миллиарда параметров и Lightning на 10 миллиардов. Взял Lightning, развернул на бесплатном Colab, погонял тесты. Плюс разобрался в документации.

Читать полностью »

Доброго времени суток, «Хабр»!

В предыдущей своей статье я рассматривал различные функции потерь - важную часть машинного обучения. Но даже такие функции совершенно беспомощны перед лицом беспорядка. Сегодня мы рассмотрим то, что предшествует любой тренировке - разметку данных.

Как и в предыдущей статье, приведу простенькое сравнение. Если модель - ученик, то разметка данных своего рода учебник, по которому она занимается. При этом создание такого учебника часто оказывается самым трудоемким, медленным и дорогостоящим этапом всего цикла ML-проекта.

Читать полностью »

В предыдущей статье я рассказывал, как сделал производительный просмотрщик логов для VS Code с Rust и mmap. Расширение открывает файлы по 10 ГБ без лагов.

Но оставалась проблема: чтобы найти нужное, приходилось писать regex. А regex — это боль. Особенно когда искать нужно "все ошибки подключения к БД" или "таймауты в сервисе auth".

Решение: пусть AI пишет regex за меня.


Что получилось

Нажимаешь "AI", пишешь на человеческом языке — получаешь фильтр:

Запрос

Результат

"все ошибки"

ERROR

Читать полностью »

В данной статье я распишу основные идеи книги Макса Тегмарка. Прошло всего 7 лет и многие идеи изложенные в ней становятся все ближе к реальности. Для некоторых труднопереводимых и конвенциональных для индустрии терминов оставил оригинальные названия в скобках.

Читать полностью »

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js