В гонке за следующей волной «умных» систем большие языковые модели берут на себя неожиданные роли. Одна из самых интересных — использовать такие модели как «судей» для оценки других моделей. Подход уже экономит командам массу ручной работы, но остаются вопросы: способен ли LLM уловить каждую тонкую ошибку? Что происходит в ситуациях, где критичны человеческая интуиция или глубокая предметная экспертиза?
Рубрика «оценка моделей»
LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше
2025-10-14 в 11:00, admin, рубрики: AI, ai agent, genai, human in the loop, llm, llm-модели, rag, ИИ, ии-агенты, оценка моделейВоспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?
2025-08-27 в 5:30, admin, рубрики: AI, llm, llmarena, machinelearning, ml, open source, ИИ, краудсорсинг, нейросети, оценка моделейВсем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena?
Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference, когда пользователь выбирает то, что ему субъективно больше нравится.
TL/DR:
-
Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+;
В чём мерить будем? Как выбрать правильные ML-метрики под задачи бизнеса
2018-08-15 в 8:05, admin, рубрики: Блог компании Инфосистемы Джет, машинное обучение, метрики, оценка моделей
Сегодня одним из главных препятствий на пути внедрения машинного обучения в бизнес является несовместимость метрик ML и показателей, которыми оперирует топ-менеджмент. Аналитик прогнозирует увеличение прибыли? Но ведь нужно понять, в каких случаях причиной увеличения станет именно машинное обучение, а в каких — прочие факторы. Увы, но довольно часто улучшение метрик ML не приводит к росту прибыли. К тому же иногда сложность данных такова, что даже опытные разработчики могут выбрать некорректные метрики, на которые нельзя ориентироваться.
Давайте рассмотрим, какие бывают метрики ML и когда их целесообразно использовать. Разберём типичные ошибки, а также расскажем о том, какие варианты постановки задачи могут подойти для машинного обучения и бизнеса.
Читать полностью »

