Рубрика «llm-модели»

Последние пару лет я много экспериментировал с LLM на разных железках от GPU-кластеров в облаке до маленьких Raspberry Pi. И вот одна из любимых задачек-провокаций: «А можно ли запустить модель на Pi 4, 5?» Если коротко: можно попробовать, но физика тут сильнее хайпа. У платы есть 8-16 ГБ памяти, у модели десятки гигабайт даже в самых «жестких» квантовках. В лоб это не работает, но зато эксперимент дает интересный результат: мы понимаем, где проходят границы устройства и какие архитектурные схемы реально полезны.

Читать полностью »

Недавно наткнулся на статью с классическим кликбейтным заголовком в духе:

«В ИИ появилась новая “золотая” профессия: спрос на неё вырос на 800% за год».

И нет — это не вольная интерпретация, а дословная копипаста. Ссылку добавлять не буду — по названию при желании легко найдёте. Материал, к слову, оказался локализацией новости от Financial Times. От светлого AGI мы пока далеки, но если верить интернету — айтишники снова лутают МиллионМиллиардов за наносекунду, запивая это миндальным смузи.

Читать полностью »

Повышение эффективности и производительности через инновационные стратегии маршрутизации.

Источник

Что такое LLM Routing?

  • В стремительно развивающемся мире искусственного интеллекта большие языковые модели (LLM)Читать полностью »

Всем привет! Меня зовут Анастасия Рысьмятова, я руковожу юнитом LLM в Авито.
В этой статье я расскажу, как мы с командой создали и адаптировали нашу большую языковую модель A-vibe: зачем решили развивать собственную LLM, как построили токенизатор, собрали датасеты, провели SFT и RL и что получили в итоге. Поделюсь основными экспериментами и покажу наши результаты.

Сегодня мы выпустили в опенсорс свое семейство генеративных моделей – A-Vibe и A-Vision, статья приурочена к этому событию.

Читать полностью »

Среди друзей я пользуюсь репутацией «ты ж программист», поэтому у меня нередко интересуются, как именно работают «под капотом» такие известные инструменты как ChatGPT, Claude, Grok или DeepSeek. Со временем я отточил ответ на этот вопрос — и потому, что нашёл способы лучше на него отвечать, и потому, что научился сам создавать большую языковую модель с нуля. Поэтому и сам понимать большие языковые модели я стал гораздо лучше.

Читать полностью »

— Нам нужны люди.
  — Какие?
  — Которых не существует. Но которые живут.
  — ?!

Статья Елизаветы Курочкиной, старшего специалиста по Data Science, компании Neoflex, посвящена рассказу о том, как простая задача генерации синтетических данных для банка переросла в создание фреймворка симуляции цифровой цивилизации под названием HumanDynamics.

Зачем вообще понадобилось что-то симулировать?

Одна из ключевых проблем, с которой сталкивается банковская сфера, — данныеЧитать полностью »

В гонке за следующей волной «умных» систем большие языковые модели берут на себя неожиданные роли. Одна из самых интересных — использовать такие модели как «судей» для оценки других моделей. Подход уже экономит командам массу ручной работы, но остаются вопросы: способен ли LLM уловить каждую тонкую ошибку? Что происходит в ситуациях, где критичны человеческая интуиция или глубокая предметная экспертиза?

Читать полностью »

Я «уволил» LLM с должности «мозга» проекта. И его производительность взлетела - 1

(...или почему будущее AI — не в увеличении контекстного окна, а в создании структурированной "памяти")

Помните свой первый "вау-эффект" от LLM?

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js