Рубрика «оценка качества»

Оценки продукта в три простых шага

2026-01-13 в 17:35, admin, рубрики: eval-harness, LLM-оценщик, бинарные метки, калибровка оценщика, оценка качества, продуктовые оценки, разметка данных

Есть три базовых шага: (i) разметить небольшой датасет, (ii) «откалибровать» LLM-оценщиков и (iii) запускать эксперимент и прогонять обвязку для оценки при каждом изменении конфигурации.

Сначала разметьте данные

Всё начинается с того, что мы выбираем часть входов и выходов из прогонов (вызовов) к нашей LLM и размечаем, соответствует ли выход нашим критериям оценки (например, достоверность по источнику, релевантность и т. п.). Начните с простого: заведите таблицу со столбцами для входа, выхода, дополнительной метаинформации, которая помогает оценить результат, и отдельным столбцом для метки.

Читать полностью »

Как оценить качество машинного перевода

2025-10-14 в 10:46, admin, рубрики: bleu, comet, llm, machine translation, машинный перевод, метрики качества, оценка качества, переводчик, переводчики, языковые модели

Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший.

При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных.

Читать полностью »

Подтверждение ИТ-компетенций на ГосУслугах, стоит ли доверять?

2025-06-29 в 18:14, admin, рубрики: hh.ru, госуслуги, джун, кандидаты, навыки, оценка качества, подбор персонала, потенциал, проверка, тестирование

Приветствую, читатель!
31 мая Госуслуги предложили интересную концепцию – проверку знаний ИТ-специалистов и подтверждение их навыков.

"Теперь все желающие могут бесплатно, добровольно и вне независимости от уровня образования подтвердить свои ИТ-компетенции, пройдя тестирование на специальной платформе.

Сертификат Минцифры позволит работодателям точнее оценивать уровень специалистов, а соискателям даст дополнительное преимущество при трудоустройстве."

Источник

Читать полностью »

Процессы против ошибок

2024-12-05 в 12:37, admin, рубрики: Story Points, аналитика проекта, гибкая разработка, оптимизация рабочего времени, оценка задачи, оценка качества, оценка трудозатрат, Процессы в командах, управление командой, управление разработкой

Меня зовут Иван Башарин. Я руководитель Лаборатории AI и архитектор решений в компании «Электронная торговая площадка Газпромбанка». В статье я пройдусь по этапам процессов в команде разработки и на примерах покажу, как мы работаем над показателями команды и улучшением наших результатов.

Генераторами новых процессов, как правило, выступают одни и те же группы пользователей: заказчики, аналитики, разработчики, тестировщики и группа управления. Но иногда процессы возникают вследствие ошибок. Из этого вырастают самые любопытные кейсы. Впрочем, обо всем по порядку.

<h2>Заказчики: они точно знают, чего хотят</h2>

Читать полностью »

Чужие ошибки, ваши последствия: взгляд изнутри на несправедливость в IT

2024-12-05 в 5:16, admin, рубрики: оценка времени, Оценка задач, оценка качества, оценка людей, оценка трудозатрат, управление персоналом, управление персоналом увольнение

Тяжесть решений: кто же на самом деле несет ответственность в IT?

Для начала представлюсь - я разработчик с более чем 15-летним стажем. За это время я работал в самых разных компаниях — от маленьких стартапов до крупных корпораций, в одиночку и в больших командах. Хочу рассказать о несправедливости в IT, с которой мне пришлось столкнуться.

Читать полностью »

Человек и LLM: как построить метрики для оценки моделей

2024-11-28 в 7:02, admin, рубрики: llm, ml, ml-метрики, бенчмарки, машинное обучение, метрики, нейросети, оценка качества, языковые модели

Привет, меня зовут Ирина Барская, и я руководитель службы аналитики и исследований в Яндексе. А это значит, что я и моя команда каждый день думаем, как оценивать качество работы генеративных моделей, какие при этом смотреть метрики, как вообще понять, хорошая ли модель у нас получилась.

Читать полностью »

Как измерить эффективность и решать проблемы разработчиков, если у тебя их сто

2019-10-03 в 12:36, admin, рубрики: Блог компании Skyeng, боли команды, измерения, кто виноват и что делать, метрики кода, метрики процесса, оценка качества, оценка людей, Программирование, управление персоналом, управление проектами, управление разработкой, эффективность работы

Вопрос о том, как оценить эффективность процесса разработки существует столько же, сколько и сама разработка. Часто девелоперы могут придерживаться идеи, что нужно просто качественно писать код, а вот все эти оптимизации, митинги, трекинг активности и так далее — менеджерская блажь. Руководители же в свою очередь считают, что превыше всего — продукт и у нас тут вообще-то бизнес, а не клуб по интересам: так что без метрик обойтись невозможно. Но насколько вообще важны метрики?

Как измерить эффективность и решать проблемы разработчиков, если у тебя их сто - 1

В начале сентября мы провели митап для руководителей разработки и поговорили об этом с людьми из Plesk, Avito, Додо Пиццы, Тинькова, Agima, ЦИАНа, Яндекс.Вертикалей, DocDoc — ну и про себя не забыли. Ниже — выжимка из того, о чем говорили наши гости.
Читать полностью »

А не фигню ли я опять делаю? Как и зачем внедрять метрики качества

2019-09-20 в 6:54, admin, рубрики: Dodo IS, Dodo Pizza Engineering, Блог компании Dodo Pizza Engineering, метрики качества, метрики продукта, оценка качества, тестирование по, управление проектами, управление разработкой

Привет! Когда-то мы использовали метрику «Вроде бы стало лучше» для оценки качества наших релизов. Но потом мы решили довериться чему-то более надёжному. В этой статье я расскажу о том, как искал гайд по метрикам, не нашёл и создал свой.

А не фигню ли я опять делаю? Как и зачем внедрять метрики качества - 1
Читать полностью »

Будущее VR видео — VR180 от Google

2018-11-12 в 6:58, admin, рубрики: 3D видео, AR и VR, S3D, stereo, VR, VR180, видеотехника, виртуальная реальность, Здоровье гика, мозг, Научно-популярное, оценка качества

S3D: No pain IS gain

В апреле этого года Google анонсировала технические детали нового формата для VR-видео — VR180. Спецификации формата были выложены в репозиторий Google на GitHub, производителям камер было предложено делать специальные камеры, формат стал поддерживаться на YouTube.

Основная идея довольно проста. В «обычном» VR-видео — 360-видео — можно вертеть головой во всех направлениях по горизонтали, при этом основное действие происходит, как правило, с какой-то одной стороны, а на устройство транслируется весь поток, что приводит к передаче и хранению избыточной информации. По факту в подавляющем большинстве случаев нет необходимости в реализации просмотра на 360 градусов — для достижения того же эффекта вполне достаточно и 180 градусов. При этом «вторая половина» кадра используется для второго ракурса, то есть получается стерео.

Таким образом, предложенный формат обеспечивает даже большее ощущение погружения, чем от 360-видео, является более дешевым в производстве, более простым в съемке и не имеет проблем со стичингом.

Как такое возможно, и что же предложили в Google?

Кому интересно VR-видео ближайшего будущего — добро пожаловать под кат!
Читать полностью »

Эффективная онлайн-оценка качества при разработке веб-сервисов. Лекция Яндекса

2018-05-06 в 13:38, admin, рубрики: Блог компании Яндекс, веб-сервисы, Исследования и прогнозы в IT, качество сервиса, математика, оценка качества, Тестирование веб-сервисов, тестирование интерфейсов, эксперименты

Разработка сервисов сейчас базируется на оценке их качества. Чтобы оценить взаимодействие пользователей с продуктом, проводятся онлайн-эксперименты, и только потом принимаются решения о запусках и обновлениях. Например, в 2015 году Google ежедневно проводил до 1000 подобных экспериментов. Растёт и число небольших компаний, которые используют AB-тестирование. На очередной встрече «Яндекс изнутри» разработчик-исследователь Алексей Друца рассмотрел современные математические методы, лежащие в основе платформ для онлайн-оценки.

— Мой доклад будет про онлайн-оценку качества для эффективной разработки веб-сервисов. Сначала расскажу о нашей команде, о том, чем мы занимаемся.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «оценка качества»

Оценки продукта в три простых шага

Сначала разметьте данные

Как оценить качество машинного перевода

Подтверждение ИТ-компетенций на ГосУслугах, стоит ли доверять?

Процессы против ошибок

Чужие ошибки, ваши последствия: взгляд изнутри на несправедливость в IT

Тяжесть решений: кто же на самом деле несет ответственность в IT?

Человек и LLM: как построить метрики для оценки моделей

Как измерить эффективность и решать проблемы разработчиков, если у тебя их сто

А не фигню ли я опять делаю? Как и зачем внедрять метрики качества

Будущее VR видео — VR180 от Google

S3D: No pain IS gain

Эффективная онлайн-оценка качества при разработке веб-сервисов. Лекция Яндекса