Рубрика «метрики качества»

Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший.

При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных.

Читать полностью »

Введение: Наш самый полезный баг

Привет, я Рамиль, QA-инженер в компании Raft. В своей работе я фокусируюсь на автоматизации тестирования, в том числе для LLM-решений, где часто использую связку Pytest и специализированных фреймворков. Эта статья — история из нашей недавней практики.

Когда перед нами встала задача построить автоматизированную систему оценки (evaluation) для LLM-классификатора, который должен был сортировать запросы клиентов, выбор инструментов казался очевидным. Мы взяли DeepEvalЧитать полностью »

Почти 6 лет мы в WPP.DIGITAL использовали классические грейды, чтобы оценивать квалификацию наших разработчиков. За это время пережили многое: проводили многочасовые интервью, шлифовали матрицу компетенций, убеждали сеньоров не скромничать, а джунов – не быть слишком уверенными в себе.  Но вопросы все равно оставались: что делать, когда разработчик крут в одном стеке, но новичок в другом? Какой у него грейд? И главное – отражают ли оценки реальную эффективность специалиста?

Читать полностью »

Предлагаются метрики для оценки общения при помощи текста. Делается вывод, что по большинству метрик в интернете нет прогресса по сравнению с временами бумажного общения.

Alexander Leydenfrost, Наука на марше (1952)

Alexander Leydenfrost, Наука на марше (1952)

Читать полностью »

Одним из самых известных принципов в мире технологий, конечно, является закон Мура. На протяжении более 55 лет «закон» описывал и предсказывал уменьшение транзисторов, указывая так называемые «технологические нормы». Словно некие «часы судного дня», с каждым годом уменьшались размеры основных элементов интегральной схемы, поэтому инженерам удавалось регулярно удваивать количество транзисторов на чипе.

Примечательно, что когда Гордон Мур высказал идею своего закона, технологии интегральных схем позволяли размещать всего около полусотни транзисторов на один кристалл.

Читать полностью »

При обучении нейронной сети на обучающей выборке на выходе нейросети вычисляются два ключевых параметра эффективности обучения — ошибка и точность предсказания. Для этого используются функция потери (loss) и метрика точности. Эти метрики различаются в зависимости от поставленной задачи (классификация или сегментация изображения, детекция объекта, регрессия). В Keras мы можем определить свои собственные функцию потери и метрики точности под свою конкретную задачу. О таких кастомных функциях и пойдет речь в статье. Кому интересно, прошу под кат.
Читать полностью »

Привет! Когда-то мы использовали метрику «Вроде бы стало лучше» для оценки качества наших релизов. Но потом мы решили довериться чему-то более надёжному. В этой статье я расскажу о том, как искал гайд по метрикам, не нашёл и создал свой.

А не фигню ли я опять делаю? Как и зачем внедрять метрики качества - 1
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js