Рубрика «GPT-OSS-120B»
GPT-OSS-20B – 120B: Сухие цифры после реальных тестов
2025-08-20 в 9:16, admin, рубрики: GPT-OSS-120B, GPT-OSS-20B, H100 PCIe, llm, Ollama, RTX 4090 vs RTX 5090, TPS токены в секунду, vllm, VRAM использование, локальная LLMOpenAI выпустила GPT-OSS модели (https://huggingface.co/openai/gpt-oss-20b и https://huggingface.co/openai/gpt-oss-120b) , и сообщество немедленно начало экспериментировать. Но реальные бенчмарки производительности найти сложно. В этой статье представлены результаты нашего практического тестирования на арендованном железе через RunPod с использованием Ollama.
Ремарка: Тесты проводились на Ollama для быстрого деплоя. Если будете использовать vLLM, то производительность будет примерно +30%, но он слабо адаптирован под консьюмерские GPU, за исключением RTX 5090.
Что тестировалось:Читать полностью »

