Рубрика «llm-модели»

Недавно мы провели первую на российском диджитал-рынке GEO-прожарку. Формат не новый, но вот продукт… Новый, непонятный и мало исследованный — поэтому мы взяли на вооружение и углубились в него.

Читать полностью »

В июне этого года на arXiv вышла работа «InfoFlood: Jailbreaking Large Language Models with Information Overload»

В исследовании авторы обнаружили новую уязвимость в системах безопасности больших языковых моделей: когда вредоносный запрос перегружается сложной лингвистической структурой, фильтры безопасности перестают его распознавать, хотя сама модель продолжает понимать суть и выдаёт вредоносный ответ.

Читать полностью »

На днях наткнулся на статью, опубликованную в телеграм-канале Habr, под названием «Тихий апокалипсис контента: почему все устали от сгенерированных статей». В ней автор выражает озабоченность количеством сгенерированного контента, который набирает просмотры и вытесняет из выдачи авторские статьи. Статья автора натолкнула меня на идею порассуждать на эту тему, провести небольшие исследования, сравнить процесс генерации текста ИИ и человеком и просто поделиться своим «экспертным» мнением.

Задачи для себя при написании статьи я ставлю следующие:

  1. Читать полностью »

Последние пару лет я много экспериментировал с LLM на разных железках от GPU-кластеров в облаке до маленьких Raspberry Pi. И вот одна из любимых задачек-провокаций: «А можно ли запустить модель на Pi 4, 5?» Если коротко: можно попробовать, но физика тут сильнее хайпа. У платы есть 8-16 ГБ памяти, у модели десятки гигабайт даже в самых «жестких» квантовках. В лоб это не работает, но зато эксперимент дает интересный результат: мы понимаем, где проходят границы устройства и какие архитектурные схемы реально полезны.

Читать полностью »

Недавно наткнулся на статью с классическим кликбейтным заголовком в духе:

«В ИИ появилась новая “золотая” профессия: спрос на неё вырос на 800% за год».

И нет — это не вольная интерпретация, а дословная копипаста. Ссылку добавлять не буду — по названию при желании легко найдёте. Материал, к слову, оказался локализацией новости от Financial Times. От светлого AGI мы пока далеки, но если верить интернету — айтишники снова лутают МиллионМиллиардов за наносекунду, запивая это миндальным смузи.

Читать полностью »

Повышение эффективности и производительности через инновационные стратегии маршрутизации.

Источник

Что такое LLM Routing?

  • В стремительно развивающемся мире искусственного интеллекта большие языковые модели (LLM)Читать полностью »

Всем привет! Меня зовут Анастасия Рысьмятова, я руковожу юнитом LLM в Авито.
В этой статье я расскажу, как мы с командой создали и адаптировали нашу большую языковую модель A-vibe: зачем решили развивать собственную LLM, как построили токенизатор, собрали датасеты, провели SFT и RL и что получили в итоге. Поделюсь основными экспериментами и покажу наши результаты.

Сегодня мы выпустили в опенсорс свое семейство генеративных моделей – A-Vibe и A-Vision, статья приурочена к этому событию.

Читать полностью »

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js