Рубрика «rtx 4070»

Я давно слежу за развитием локальных LLM, но всегда упирался в одно и то же — либо модель маленькая и качество не устраивает, либо большая и не влезает в видеопамять. Всё изменилось когда я наткнулся на статью про MoE-модели и параметр -cmoe в llama.cpp.

Расскажу как я запустил Qwen3.6 35B-A3B на RTX 4070 12GB с 32GB RAM, настроил его как AI-ассистент для реального проекта в opencode, и почему теперь эта модель у меня работает постоянно.


Железо и ожидания

Моя конфигурация:

  • GPU: RTX 4070 12GB VRAM

  • RAM: 32GB DDR4

  • CPU: 12 физических ядер

  • OS: Windows 11 + WSL2 (Ubuntu)

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js