Business Intelligence (BI) находит применение в самых разных сферах, в том числе, например, при анализе результатов бенчмарков. Часто возникает задача сравнения производительности двух версий приложения на основе результатов бенчмарков (время выполнения тестов для нескольких прогонов и нескольких тестов), например, сравнение master ветки и feature ветки. Улучшение производительности в feature ветке (особенно, если она для улучшения производительности и создавалась) проверить можно условно и вручную, но также важно проверить, что нет деградации в других кейсах бенчмарков для feature ветки по сравнению с masterЧитать полностью »
Рубрика «бенчмарки» - 3
BI в тестировании — сравнение результатов бенчмарков двух веток с помощью однофакторного ANOVA (критерий Кохрена-Кокса)
2025-04-27 в 12:14, admin, рубрики: бенчмарки, критерий Кохрена-Кокса, однофакторный ANOVA, сравнение PRПроизводительность интерпретатора Python 3.14 с оптимизацией хвостовых вызовов
2025-03-17 в 13:01, admin, рубрики: clang, cpython, gcc, ruvds_переводы, байт-код, бенчмарки, интерпретаторы
Примерно месяц назад проект CPython смерджил новую стратегию реализации интерпретатора байт-кода. Первоначальные результаты были очень впечатляющими, продемонстрировав среднее повышение производительности на 10-15% в широком спектре бенчмарков на различных платформах.Читать полностью »
Уроки химии: AMORE проверит готовность химических языковых моделей
2025-03-14 в 9:04, admin, рубрики: ChemLM, llm, nlp, бенчмарки, химия, языковые моделиПривет! Мы, команда NLP‑исследователей из AIRI и Сбера, опубликовали недавно результаты исследования того, как языковые модели справляются с химическими задачами. Дело в том, что в последние годы интеграция методов обработки естественного языка в области химии неуклонно растёт, и это открывает новые горизонты для открытия лекарств. Однако возникает важный вопрос: действительно ли современные языковые модели научились понимать молекулы, или они просто запоминают их текстовые представления?
Чтобы выяснить это, мы создали ♡AMOREЧитать полностью »
Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики
2025-02-04 в 12:49, admin, рубрики: AI, llm, named entity recognition, rag, RAI, Text-to-SQL, бенчмарки
Оценка систем LLM: основные метрики, бенчмарки и лучшие практики
2025-01-22 в 11:34, admin, рубрики: DeepEval, g-eval, llm, Text-SQL, бенчмаркиНасколько RTX 2080 Ti подходит для ML-задач? Изучаем бенчмарки
2025-01-21 в 9:04, admin, рубрики: Nvidia, selectel, бенчмарки, Видеокарты, Железо
Когда NVIDIA представила видеокарты семейства GeForce® RTX™ 20 в 2018 году, стало ясно, что новые чипы с архитектурой NVIDIA Turing™ кардинально изменят подход к вычислениям. Благодаря множеству нововведений, новые видеокарты стали значительно производительнее предыдущего поколения. При этом GPU 20 серии поддерживают и работу новых технологий, которые анонсировали с выходом GeForce® RTX™ 30. Разберемся, какие видеокарты будут оптимальным выбором для ML-задач. Под катом — реальные примеры и результаты бенчмарков.Читать полностью »
∇²DFT — новый датасет и бенчмарк для решения задач квантовой химии с помощью нейросетей
2024-12-25 в 12:27, admin, рубрики: dft, бенчмарки, графовые нейросети, квантовая химияПривет!
Меня зовут Кузьма Храбров, я инженер‑исследователь в AIRI и занимаюсь задачами на стыке машинного обучения, квантовой химии и вычислительной биологии. Вместе с командой мы создаем новые датасеты, обучаем новые модели и придумываем методы решения как фундаментальных, так и практических задач.
ARC Prize 2024: Второй после Теста Тьюринга?
2024-12-24 в 17:40, admin, рубрики: llm, бенчмарки, ИИ, Модель o3 от OpenAI, сильный ИИ, сравнение LLM
Предлагаю обсудить перевод оригинальной статьи с методикой интересного теста ARC Prize, - об него сломали виртуальные зубы все LLM, кроме нашумевшей o3 от OpenAIЧитать полностью »
Лучшие крупные языковые модели в ноябре 2024 г
2024-12-16 в 13:46, admin, рубрики: Claude 3.5 v2 Update, gpt-4o, llm, LLM Benchmark v2, qwen, Text-to-SQL, бенчмарки
В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.
-
Обновление: Claude Sonnet 3.5 v2 — отличные возможности PDF
-
GPT-4o от 20 ноября — ТОП-3!
-
Qwen 2.5 Coder 32B Instruct — посредственный, но продвигает SotA!
-
Qwen QwQ 32B Preview — слишком умный
BABILong — бенчмарк для оценки LLM на больших контекстах
2024-12-16 в 7:24, admin, рубрики: benchmark, llm, бенчмарки, длинный контекстПривет! Мы — команда Memory‑Augmented models в составе лаборатории Cognitive AI Systems AIRI. В ходе своих исследований мы стараемся разобраться, насколько хорошо LLM могут обрабатывать большой объем данных и решать задачи на основе них.
Разработчики современных языковых моделей соревнуются в длине контекста, и счёт уже идёт на миллионы токенов. Но насколько эффективно LLM пользуются информацией из этого контекста?
Чтобы выяснить это, мы вместе с коллегами из МФТИ и Лондонского института Математических Наук создали новый бенчмарк под названием BABILong, который привезлиЧитать полностью »

