Рубрика «llama.cpp»
Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака
2026-04-22 в 9:30, admin, рубрики: ai-ассистент, llama.cpp, llm, LM Studio, opencode, qwen, rtx 4070, искусственный интеллект, локальные моделиЯ давно слежу за развитием локальных LLM, но всегда упирался в одно и то же — либо модель маленькая и качество не устраивает, либо большая и не влезает в видеопамять. Всё изменилось когда я наткнулся на статью про MoE-модели и параметр -cmoe в llama.cpp.
Расскажу как я запустил Qwen3.6 35B-A3B на RTX 4070 12GB с 32GB RAM, настроил его как AI-ассистент для реального проекта в opencode, и почему теперь эта модель у меня работает постоянно.
Железо и ожидания
Моя конфигурация:
-
GPU: RTX 4070 12GB VRAM
-
RAM: 32GB DDR4
-
CPU: 12 физических ядер
-
OS: Windows 11 + WSL2 (Ubuntu)
Запускаем LLM на AMD RX580: разбор проблем ROCm, Ollama и реальный GPU inference
2026-03-15 в 6:15, admin, рубрики: amd, docker, k8s, legacy, llama.cpp, llm, mlops, Ollama, radeon, rx 580TL;DR
Мы пытались запустить LLM inference на старой AMD RX580 (8 VRAM) через ROCm в Kubernetes. GPU корректно определялся, VRAM использовалась, но inference падал с ошибками вида:
hipMemGetInfo(free, total) CUDA error: invalid argument
После серии экспериментов с ROCm userspace, Docker‑образами и Kubernetes deployment выяснилось, что проблема лежит на границе:
kernel → ROCm runtime → ggml backend
Финальное решение включало:
-
переход на kernel 6.8
-
стабилизацию ROCm runtime
-
использование llama.cpp + ROCm
-
grammar‑constrained decoding для strict sanity prompts
В итоге мы получили стабильный GPU inference:
-
~42 токен/сек
-
gpu_busy_percent → до 100%
Установка и настройка llama.cpp с ROCm на Ubuntu 24.04 для AMD Radeon RX 7600 XT
2026-01-03 в 13:07, admin, рубрики: llama.cpp, llmОднажды захотел я установить Ubuntu 24.04 для локального запуска LLM-моделей. Поскольку моя система полностью на базе AMD (процессор Ryzen 7600 и видеокарта Radeon RX 9060 XT), логичным выбором стал стек ROCm
Однако быстрого и понятного руководства «от и до» для свежего Ubuntu 24.04 я не нашёл — даже нейросети давали устаревшие или фрагментированные советы.
В этой статье я подробно разберу весь путь: от установки драйверов ROCm до получения первого ответа от модели через Python-скрипт. Надеюсь, этот гайд сэкономит время тем, кто столкнётся с аналогичной задачей.
1. Установка системы и драйверов ROCm
Вайб-кодинг с доставкой на дом
2025-08-19 в 10:05, admin, рубрики: kubernetes, llama.cpp, Ollama, вайб-кодингНейросети простым языком
2025-08-12 в 5:15, admin, рубрики: AI, chatgpt, gemini, grok, llama.cpp, llm, TransformersПривет!
В интернете можно найти разные объяснения того, как работают нейросети, но те, что мне попадались, были либо слишком специфичны и ориентированы на специалистов, либо слишком упрощены.
Постарался написать свои объяснения, которые были бы не было слишком упрощены, но при этом по возможности понятны.
Статья на 10 процентов скомпилирована из других статей, на 30 процентов скомпилирована из множества диалогов с разными LLM и на 60 процентов “написана от руки” на основании статей и ответов.
Оглавление
Георгий Герганов, автор llama.cpp и звукового кейлогера
2025-07-07 в 9:01, admin, рубрики: Georgi Gerganov, ggml, LiteLLM, llama, llama.cpp, llm, LM Studio, Ollama, Георгий Герганов, тензорная алгебра
Многие пользуются YouTube, Netflix, но не подозревают о ключевых опенсорсных программах типа ffmpeg, которые работают на бэкенде этих сервисов. Похожая ситуация с нейронками, где многие знают программу OllamaЧитать полностью »
Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса
2025-06-18 в 8:00, admin, рубрики: exllamav3, llama.cpp, qwen3, rtx 3090 24gb, rtx 5060 ti 16gb, tabbyapi, видеокарты для нейросетей, Железо, инференс, тест ии-моделей
Мечтаете запустить нейросеть на компьютере и анализировать целые книги или сложные документы? Тогда объём VRAM и поддержка длинных контекстов — ваши главные приоритеты.



