Главная

Рубрика «local ai»

Как мы запустили 35B LLM на видеокарте за $500: внутри ZINC inference engine

2026-04-08 в 8:27, admin, рубрики: amd, gpu, inference, llm, local ai, metal, qwen, zig

Год назад запуск модели на 35 миллиардов параметров подразумевал облако, очередь на GPU, и счёт от провайдера в конце месяца. Сегодня я покажу, как мы сделали это на одной потребительской видеокарте AMD за $500 — без ROCm, без CUDA, без MLX, одним бинарником на Zig.

Это пост про ZINC — inference engine, который мы строим с нуля под железо, которое люди реально покупают. Не как proof of concept, а как рабочий инструмент с OpenAI-совместимым API, потоковой генерацией и встроенным чатом.

Читать полностью »

Почему большинство AI-агентов плохо работают на Raspberry Pi (и как я попытался это исправить)

2026-03-19 в 11:16, admin, рубрики: golang, homelab, llm, local ai, open source, Raspberry Pi

Проблема: тяжёлые AI-агенты на маленьком железе

Последнее время я экспериментировал с AI-агентами на Raspberry Pi 5.

И довольно быстро столкнулся с проблемой: большинство существующих агентных фреймворков оказываются слишком тяжёлыми для небольшого железа.

Типичная архитектура таких решений включает:

Python-фреймворк
несколько фоновых сервисов
orchestration слой
иногда векторную базу
довольно сложную конфигурацию

На сервере это нормально работает. Но на Raspberry Pi всё начинает ощущаться иначе:

долгий старт
лишние зависимости
Читать полностью »

От чат-бота к AI агенту: собираем локальную систему на LibreChat, Langflow и MCP

2026-02-18 в 9:01, admin, рубрики: fastapi, gpt, langflow, LibreChat, llm, local ai, MCP, Ollama, агенты ии

Всем привет! Меня зовут Николай Луняка. В прошлой статье мы строили локальную систему для транскрибации аудио, и многие из вас откликнулись на тему цифровой независимости. Сегодня продолжим эту линию и соберем агентную AI систему, которая работает локально.

Читать полностью »

Ускорение DeepSeek-R1 с подвохом: Когда токены в секунду врут о реальной скорости

2025-06-18 в 7:44, admin, рубрики: AI, deepseek, DeepSeek R1, deepseek r1-0528, gguf, llama.cpp, llm, llm-модели, local ai, кодогенерация

Введение

После сборки домашнего сервера для работы с LLM DeepSeek-R1 подробно о нём можно прочитать в статье Локальный DeepSeek-R1-0528. Когда скорость улитки – не приговор, а точка старта возникла потребность сравнить разные квантизации для оптимизации скорости/качества работы. Запуская работу с разными моделями, я заметил что квантизация зачастую приводит к ускорению генерации токенов.
Читать полностью »

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

2025-06-09 в 14:21, admin, рубрики: AI, deepseek, DeepSeek R1, deepseek v3, EPYC, gguf, huggingface, llama.cpp, llm, local ai

Зачем?

У меня возникло желание запустить локальную версию DeepSeek R1 и V3. Это связано с необходимостью избежать рисков связанных с блокировками доступа и утечкой данных. Ещё добавилось желание протестировать разнообразные настройки LLM. До этого момента я пробовал запускать разные небольшие модели исключительно на cpu. А вот опыта с большими моделями не было.