Рубрика «бенчмарки» - 3

BI в тестировании — сравнение результатов бенчмарков двух веток с помощью однофакторного ANOVA (критерий Кохрена-Кокса)

2025-04-27 в 12:14, admin, рубрики: бенчмарки, критерий Кохрена-Кокса, однофакторный ANOVA, сравнение PR

Business Intelligence (BI) находит применение в самых разных сферах, в том числе, например, при анализе результатов бенчмарков. Часто возникает задача сравнения производительности двух версий приложения на основе результатов бенчмарков (время выполнения тестов для нескольких прогонов и нескольких тестов), например, сравнение master ветки и feature ветки. Улучшение производительности в feature ветке (особенно, если она для улучшения производительности и создавалась) проверить можно условно и вручную, но также важно проверить, что нет деградации в других кейсах бенчмарков для feature ветки по сравнению с masterЧитать полностью »

Производительность интерпретатора Python 3.14 с оптимизацией хвостовых вызовов

2025-03-17 в 13:01, admin, рубрики: clang, cpython, gcc, ruvds_переводы, байт-код, бенчмарки, интерпретаторы

Примерно месяц назад проект CPython смерджил новую стратегию реализации интерпретатора байт-кода. Первоначальные результаты были очень впечатляющими, продемонстрировав среднее повышение производительности на 10-15% в широком спектре бенчмарков на различных платформах.Читать полностью »

Уроки химии: AMORE проверит готовность химических языковых моделей

2025-03-14 в 9:04, admin, рубрики: ChemLM, llm, nlp, бенчмарки, химия, языковые модели

Привет! Мы, команда NLP‑исследователей из AIRI и Сбера, опубликовали недавно результаты исследования того, как языковые модели справляются с химическими задачами. Дело в том, что в последние годы интеграция методов обработки естественного языка в области химии неуклонно растёт, и это открывает новые горизонты для открытия лекарств. Однако возникает важный вопрос: действительно ли современные языковые модели научились понимать молекулы, или они просто запоминают их текстовые представления?

Чтобы выяснить это, мы создали ♡AMOREЧитать полностью »

Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики

2025-02-04 в 12:49, admin, рубрики: AI, llm, named entity recognition, rag, RAI, Text-to-SQL, бенчмарки

Читать полностью »

Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

2025-01-22 в 11:34, admin, рубрики: DeepEval, g-eval, llm, Text-SQL, бенчмарки

Читать полностью »

Насколько RTX 2080 Ti подходит для ML-задач? Изучаем бенчмарки

2025-01-21 в 9:04, admin, рубрики: Nvidia, selectel, бенчмарки, Видеокарты, Железо

Когда NVIDIA представила видеокарты семейства GeForce® RTX™ 20 в 2018 году, стало ясно, что новые чипы с архитектурой NVIDIA Turing™ кардинально изменят подход к вычислениям. Благодаря множеству нововведений, новые видеокарты стали значительно производительнее предыдущего поколения. При этом GPU 20 серии поддерживают и работу новых технологий, которые анонсировали с выходом GeForce® RTX™ 30. Разберемся, какие видеокарты будут оптимальным выбором для ML-задач. Под катом — реальные примеры и результаты бенчмарков.Читать полностью »

∇²DFT — новый датасет и бенчмарк для решения задач квантовой химии с помощью нейросетей

2024-12-25 в 12:27, admin, рубрики: dft, бенчмарки, графовые нейросети, квантовая химия

Привет!

Меня зовут Кузьма Храбров, я инженер‑исследователь в AIRI и занимаюсь задачами на стыке машинного обучения, квантовой химии и вычислительной биологии. Вместе с командой мы создаем новые датасеты, обучаем новые модели и придумываем методы решения как фундаментальных, так и практических задач.

Читать полностью »

ARC Prize 2024: Второй после Теста Тьюринга?

2024-12-24 в 17:40, admin, рубрики: llm, бенчмарки, ИИ, Модель o3 от OpenAI, сильный ИИ, сравнение LLM

Нейросети, готовые к схватке за ARC Prize

Предлагаю обсудить перевод оригинальной статьи с методикой интересного теста ARC Prize, - об него сломали виртуальные зубы все LLM, кроме нашумевшей o3 от OpenAI Читать полностью »

Лучшие крупные языковые модели в ноябре 2024 г

2024-12-16 в 13:46, admin, рубрики: Claude 3.5 v2 Update, gpt-4o, llm, LLM Benchmark v2, qwen, Text-to-SQL, бенчмарки

В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.

Обновление: Claude Sonnet 3.5 v2 — отличные возможности PDF
GPT-4o от 20 ноября — ТОП-3!
Qwen 2.5 Coder 32B Instruct — посредственный, но продвигает SotA!
Qwen QwQ 32B Preview — слишком умный

Читать полностью »

BABILong — бенчмарк для оценки LLM на больших контекстах

2024-12-16 в 7:24, admin, рубрики: benchmark, llm, бенчмарки, длинный контекст

Привет! Мы — команда Memory‑Augmented models в составе лаборатории Cognitive AI Systems AIRI. В ходе своих исследований мы стараемся разобраться, насколько хорошо LLM могут обрабатывать большой объем данных и решать задачи на основе них.

Разработчики современных языковых моделей соревнуются в длине контекста, и счёт уже идёт на миллионы токенов. Но насколько эффективно LLM пользуются информацией из этого контекста?

Чтобы выяснить это, мы вместе с коллегами из МФТИ и Лондонского института Математических Наук создали новый бенчмарк под названием BABILong, который привезли Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «бенчмарки» - 3

BI в тестировании — сравнение результатов бенчмарков двух веток с помощью однофакторного ANOVA (критерий Кохрена-Кокса)

Производительность интерпретатора Python 3.14 с оптимизацией хвостовых вызовов

Уроки химии: AMORE проверит готовность химических языковых моделей

Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики

Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

Насколько RTX 2080 Ti подходит для ML-задач? Изучаем бенчмарки

∇²DFT — новый датасет и бенчмарк для решения задач квантовой химии с помощью нейросетей

ARC Prize 2024: Второй после Теста Тьюринга?

Лучшие крупные языковые модели в ноябре 2024 г

BABILong — бенчмарк для оценки LLM на больших контекстах