Рубрика «суммаризация»

I. Первые шаги: листок, стенография и диктофон

В середине XX века к протоколированию добавился диктофон. Уже не надо было все ловить «на лету» — можно записать разговор и потом «разложить» записи в текст. Но диктофон имел слабое место: качество записи, шум, шепоты, пересекающиеся голоса — всё это мешало точности. К тому же, никто не может слушать три часа записи без усталости — и всё равно надо вручную транскрибировать, выбирать, что важно.

Но технология, решая одну проблему, тут же создала другую. Часовые записи становились «цифровым кладбищемЧитать полностью »

Неделю назад на сайте 300.ya.ru мы продемонстрировали возможности языковой модели YandexGPT применительно к задаче суммаризации текстов. С тех пор многое изменилось: мы обучили новую, более качественную модель, в пересказах которой в 4 раза меньше ошибок. А сегодня мы внедрили её в Яндекс Браузер. Может показаться, что мы просто взяли ту же модель, о которой уже рассказывали сообществу на примере Алисы, и прикрутили к ней кнопку в Браузере. Но не всё так просто. Да, наша базовая модель уже понимала, что такое суммаризация в общих чертах. Но для нас было важно добиться результата в нужной нам форме и с предсказуемым качеством. И вот тут-то начинаются нюансы.

Сегодня поделюсь с Хабром не столько новостью, сколько нашим опытом и советами из области дообучения моделей и промпт-инжиниринга. Расскажу, через что пришлось пройти нашей команде, чтобы модель начала делать то, что от неё ожидают.

YandexGPT в Браузере: как мы учили модель суммаризировать статьи - 1

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js