Главная

Рубрика «rx 580»

Запускаем LLM на AMD RX580: разбор проблем ROCm, Ollama и реальный GPU inference

2026-03-15 в 6:15, admin, рубрики: amd, docker, k8s, legacy, llama.cpp, llm, mlops, Ollama, radeon, rx 580

TL;DR

Мы пытались запустить LLM inference на старой AMD RX580 (8 VRAM) через ROCm в Kubernetes. GPU корректно определялся, VRAM использовалась, но inference падал с ошибками вида:

hipMemGetInfo(free, total) CUDA error: invalid argument

После серии экспериментов с ROCm userspace, Docker‑образами и Kubernetes deployment выяснилось, что проблема лежит на границе:

kernel → ROCm runtime → ggml backend

Финальное решение включало: