Главная

Рубрика «оценка моделей»

LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше

2025-10-14 в 11:00, admin, рубрики: AI, ai agent, genai, human in the loop, llm, llm-модели, rag, ИИ, ии-агенты, оценка моделей

В гонке за следующей волной «умных» систем большие языковые модели берут на себя неожиданные роли. Одна из самых интересных — использовать такие модели как «судей» для оценки других моделей. Подход уже экономит командам массу ручной работы, но остаются вопросы: способен ли LLM уловить каждую тонкую ошибку? Что происходит в ситуациях, где критичны человеческая интуиция или глубокая предметная экспертиза?

Читать полностью »

Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

2025-08-27 в 5:30, admin, рубрики: AI, llm, llmarena, machinelearning, ml, open source, ИИ, краудсорсинг, нейросети, оценка моделей

Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena?

Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference, когда пользователь выбирает то, что ему субъективно больше нравится.

TL/DR:

Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+;
Читать полностью »

Как обучить LLM выбирать правильные варианты кода, сгенерированные другой моделью. Разбор от Тайного редактора

2025-04-16 в 12:50, admin, рубрики: большая языковая модель, генерация кода, искусственный интеллект, оценка моделей

Читать полностью »

В чём мерить будем? Как выбрать правильные ML-метрики под задачи бизнеса

2018-08-15 в 8:05, admin, рубрики: Блог компании Инфосистемы Джет, машинное обучение, метрики, оценка моделей

Сегодня одним из главных препятствий на пути внедрения машинного обучения в бизнес является несовместимость метрик ML и показателей, которыми оперирует топ-менеджмент. Аналитик прогнозирует увеличение прибыли? Но ведь нужно понять, в каких случаях причиной увеличения станет именно машинное обучение, а в каких — прочие факторы. Увы, но довольно часто улучшение метрик ML не приводит к росту прибыли. К тому же иногда сложность данных такова, что даже опытные разработчики могут выбрать некорректные метрики, на которые нельзя ориентироваться.

Давайте рассмотрим, какие бывают метрики ML и когда их целесообразно использовать. Разберём типичные ошибки, а также расскажем о том, какие варианты постановки задачи могут подойти для машинного обучения и бизнеса.
Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Комментарии

Рекомендуем

Рубрика «оценка моделей»

LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше

Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

Как обучить LLM выбирать правильные варианты кода, сгенерированные другой моделью. Разбор от Тайного редактора

В чём мерить будем? Как выбрать правильные ML-метрики под задачи бизнеса