Рубрика «локальные модели»

Я давно слежу за развитием локальных LLM, но всегда упирался в одно и то же — либо модель маленькая и качество не устраивает, либо большая и не влезает в видеопамять. Всё изменилось когда я наткнулся на статью про MoE-модели и параметр -cmoe в llama.cpp.

Расскажу как я запустил Qwen3.6 35B-A3B на RTX 4070 12GB с 32GB RAM, настроил его как AI-ассистент для реального проекта в opencode, и почему теперь эта модель у меня работает постоянно.


Железо и ожидания

Моя конфигурация:

  • GPU: RTX 4070 12GB VRAM

  • RAM: 32GB DDR4

  • CPU: 12 физических ядер

  • OS: Windows 11 + WSL2 (Ubuntu)

Читать полностью »

Три месяца назад я наблюдал, как мой агент на Llama 3.1 8B в третий раз спрашивает, как меня зовут.

Я представился в первом сообщении. Двести сообщений назад...

Агент забыл. Не потому что тупой. Потому что контекст переполнился и начало разговора уехало в никуда.

Это был момент, когда я понял: мы неправильно думаем о памяти.

Почему большие контексты — это ловушка

Когда вышел Claude с контекстом на миллион токенов, казалось — проблема решена. Запихиваем всё в контекст, модель помнит всё. Красота.

Потом пришёл счёт за API.

Читать полностью »

Команда AI for Devs подготовила перевод статьи о том, как использовать OpenCode вместе с Docker Model Runner для локальной разработки с LLM. В центре внимания — контроль над кодом, данными и затратами: модели запускаются локально, контекст не уходит во внешние сервисы, а ИИ-ассистент становится частью вашей инфраструктуры, а не сторонним SaaS. Практический разбор для тех, кто хочет использовать ИИ в разработке без компромиссов по безопасности и стоимости.


Читать полностью »

Команда AI for Devs подготовила перевод исследования о парадоксе безопасности локальных LLM. Если вы запускаете модели на своём сервере ради приватности, эту статью стоит прочитать. Эксперименты показывают: локальные модели вроде gpt-oss-20b куда легче обмануть, чем облачные аналоги. Они чаще вставляют вредоносный код, не замечая подвоха, и превращаются в идеальную цель для атак.


Если вы запускаете локальную LLM ради приватности и безопасности, эта статья must have. Наше исследование модели gpt-oss-20b (в рамках Red-Teaming Challenge от OpenAIЧитать полностью »

В ★5УГЛОВ мы часто работаем с языковыми моделями — как облачными, так и локальными. И если про онлайн-сервисы знают все, то локальные LLM до сих пор остаются недооцененным инструментом. Я решил поделиться личным опытом: какие модели можно запускать прямо на ПК, чем они полезны и зачем их вообще использовать в реальных проектах.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js