В последнее время большие языковые модели (LLM) становятся все более популярными, но для их эффективного запуска требуется значительная вычислительная мощность. Один из способов запуска LLM локально - использование библиотеки Llama.cpp. В этой статье мы рассмотрим, как тестировать производительность видеокарт для LLM с использованием инструмента llama-bench, входящего в состав Llama.cpp.
Рубрика «бенчмарки» - 3
Тестирование производительности видеокарт на примере больших языковых моделей с использованием Llama.cpp
2025-06-09 в 9:56, admin, рубрики: llama.cpp, llm, бенчмарки, Видеокарты, нагрузочное тестированиеLeaderboard Illusion: что не так с Chatbot Arena
2025-05-01 в 15:48, admin, рубрики: Chatbot Arena, бенчмарки, бенчмарки ИИ, большие языковые модели, БЯМ, завышенные ожидания, конфликты, научные публикации, пиар, статистикаAI-агенты в реальном мире: почему они не работают и как это исправить
2025-04-29 в 14:30, admin, рубрики: claude, gpt, llm, llm-модели, бенчмарки, галлюцинации, инженерия надежности, оценка, парадокс ДжевонсаМеня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь полезными материалами, которые считаю стоят внимания. В основном про AI, изменение процессов, тренды и продуктовое видение.
У себя в телеграм-канале делюсь сжатыми и структурированными саммери статей.
Статья на основе презентацииЧитать полностью »
BI в тестировании — сравнение результатов бенчмарков двух веток с помощью однофакторного ANOVA (критерий Кохрена-Кокса)
2025-04-27 в 12:14, admin, рубрики: бенчмарки, критерий Кохрена-Кокса, однофакторный ANOVA, сравнение PRBusiness Intelligence (BI) находит применение в самых разных сферах, в том числе, например, при анализе результатов бенчмарков. Часто возникает задача сравнения производительности двух версий приложения на основе результатов бенчмарков (время выполнения тестов для нескольких прогонов и нескольких тестов), например, сравнение master ветки и feature ветки. Улучшение производительности в feature ветке (особенно, если она для улучшения производительности и создавалась) проверить можно условно и вручную, но также важно проверить, что нет деградации в других кейсах бенчмарков для feature ветки по сравнению с masterЧитать полностью »
Производительность интерпретатора Python 3.14 с оптимизацией хвостовых вызовов
2025-03-17 в 13:01, admin, рубрики: clang, cpython, gcc, ruvds_переводы, байт-код, бенчмарки, интерпретаторы
Примерно месяц назад проект CPython смерджил новую стратегию реализации интерпретатора байт-кода. Первоначальные результаты были очень впечатляющими, продемонстрировав среднее повышение производительности на 10-15% в широком спектре бенчмарков на различных платформах.Читать полностью »
Уроки химии: AMORE проверит готовность химических языковых моделей
2025-03-14 в 9:04, admin, рубрики: ChemLM, llm, nlp, бенчмарки, химия, языковые моделиПривет! Мы, команда NLP‑исследователей из AIRI и Сбера, опубликовали недавно результаты исследования того, как языковые модели справляются с химическими задачами. Дело в том, что в последние годы интеграция методов обработки естественного языка в области химии неуклонно растёт, и это открывает новые горизонты для открытия лекарств. Однако возникает важный вопрос: действительно ли современные языковые модели научились понимать молекулы, или они просто запоминают их текстовые представления?
Чтобы выяснить это, мы создали ♡AMOREЧитать полностью »
Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики
2025-02-04 в 12:49, admin, рубрики: AI, llm, named entity recognition, rag, RAI, Text-to-SQL, бенчмарки
Оценка систем LLM: основные метрики, бенчмарки и лучшие практики
2025-01-22 в 11:34, admin, рубрики: DeepEval, g-eval, llm, Text-SQL, бенчмаркиНасколько RTX 2080 Ti подходит для ML-задач? Изучаем бенчмарки
2025-01-21 в 9:04, admin, рубрики: Nvidia, selectel, бенчмарки, Видеокарты, Железо
Когда NVIDIA представила видеокарты семейства GeForce® RTX™ 20 в 2018 году, стало ясно, что новые чипы с архитектурой NVIDIA Turing™ кардинально изменят подход к вычислениям. Благодаря множеству нововведений, новые видеокарты стали значительно производительнее предыдущего поколения. При этом GPU 20 серии поддерживают и работу новых технологий, которые анонсировали с выходом GeForce® RTX™ 30. Разберемся, какие видеокарты будут оптимальным выбором для ML-задач. Под катом — реальные примеры и результаты бенчмарков.Читать полностью »
∇²DFT — новый датасет и бенчмарк для решения задач квантовой химии с помощью нейросетей
2024-12-25 в 12:27, admin, рубрики: dft, бенчмарки, графовые нейросети, квантовая химияПривет!
Меня зовут Кузьма Храбров, я инженер‑исследователь в AIRI и занимаюсь задачами на стыке машинного обучения, квантовой химии и вычислительной биологии. Вместе с командой мы создаем новые датасеты, обучаем новые модели и придумываем методы решения как фундаментальных, так и практических задач.

