Рубрика «llm»

Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака

2026-04-22 в 9:30, admin, рубрики: ai-ассистент, llama.cpp, llm, LM Studio, opencode, qwen, rtx 4070, искусственный интеллект, локальные модели

Я давно слежу за развитием локальных LLM, но всегда упирался в одно и то же — либо модель маленькая и качество не устраивает, либо большая и не влезает в видеопамять. Всё изменилось когда я наткнулся на статью про MoE-модели и параметр -cmoe в llama.cpp.

Расскажу как я запустил Qwen3.6 35B-A3B на RTX 4070 12GB с 32GB RAM, настроил его как AI-ассистент для реального проекта в opencode, и почему теперь эта модель у меня работает постоянно.

Железо и ожидания

Моя конфигурация:

GPU: RTX 4070 12GB VRAM
RAM: 32GB DDR4
CPU: 12 физических ядер
OS: Windows 11 + WSL2 (Ubuntu)

Читать полностью »

Клинический профиль Gemini: синдром дефицита внимания, пикацизм и психопатия по Ганнушкину

2026-04-21 в 8:52, admin, рубрики: gemini, llm, галлюцинации ИИ, нейросети, промпт-инжиниринг, психология, СДВГ, управление

Gemini (Google)
Читать полностью »

Интеграция Google Gemini API в асинхронный Telegram-бот на aiogram 3.x и Python

2026-04-19 в 15:15, admin, рубрики: aiogram, gemini api, llm, python, rate limiting, асинхронное программирование

В прошлую пятницу, ровно в 18:47, когда я уже мысленно открывал великолепный, наполненный витаминами, напиток, мне прилетело сообщение от тимлида: «Бот лежит, пользователи жалуются, Gemini API возвращает 429». Наш корпоративный Telegram-бот, который должен был помогать саппорту отвечать на тикеты, просто встал колом. Причина оказалась до банальности простой: мы не учли rate limiting и думали, что 50 RPM (запросов в минуту) на бесплатном тарифе — это «бесконечно много». С тех пор мы переписали архитектуру, добавили очереди, кэширование и middleware для retry. В этой статье разберу, как с нуля подружить Gemini API с Telegram-ботом на aiogram 3.x, не наступая на те же грабли.Читать полностью »

Немного про AI для догоняющих

2026-04-18 в 7:15, admin, рубрики: AI, chatgpt, claude, llm, machine learning, искуственный интеллект

Не тот мудр, кто знает всё, а тот, кто знает, кого спросить.

Немного введения

В настоящее время тема искусственного интеллекта (AI) перестала быть уделом исследователей и энтузиастов — она ворвалась в повседневную работу инженеров, аналитиков, менеджеров и, по сути, всех, кто хоть как‑то взаимодействует с текстом, кодом или данными.

Читать полностью »

Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

2026-04-17 в 9:15, admin, рубрики: function calling, llm, rag, RLHF, агенты, искусственный интеллект, нейросети, цифровой двойник, языковые модели

Технократический разбор для инженеров и бизнес-аналитиков. Без преувеличений и продающих лозунгов.

Данная статья представляет собой результат кабинетного исследования об основных особенностях работы ИИ (LLM, модель). Здесь в систематизированном виде относительно простым языком описано, как реализуется вся та “магия” про ИИ, с которой мы сталкиваемся сами или слышим в восторженно-продающих материалах.

Сразу уточню, что под ИИ тут понимается именно публичная Большая языковая (текстовая) модель (LLM), вроде ЧатаГПТ, ГигаЧата, Дипсика и др.

В этой статье мы:

Читать полностью »

Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы

2026-04-15 в 11:43, admin, рубрики: AI Security, backend, guardrails, jailbreak, java, langchain4j, llm, prompt injection, spring ai, безопасность llm

System prompt — это просьба. Guardrails — это принуждение.

1. Введение

Когда я впервые внедрял LLM в production-сервис, схема безопасности выглядела примерно так: написать хороший system prompt, поставить галочку «мы всё предусмотрели» и жить дальше. Жизнь не дала долго наслаждаться этим спокойствием — первый же тест показал, что пользователи довольно быстро находят способы заставить модель «забыть» всё, что мы написали в системном промпте.

Проблема фундаментальная: system prompt — это инструкция, которую LLM старается выполнить, но не обязанЧитать полностью »

Pipeline Triad Pattern: конвейер AI-агентов вместо команды разработки

2026-04-15 в 10:00, admin, рубрики: ai-агенты, code review, devops, DevSecOps, llm, multi-agent systems, orchestration, pipeline triad, sdlc

Pipeline Triad Pattern: конвейер AI-агентов вместо команды разработки

TL;DR

Pipeline Triad Pattern - это не один AI-агент, а конвейер троек: Создатель, Критик и Арбитр. Каждая тройка закрывает свой этап SDLC, человек включается только в 4 контрольных точках, а сам паттерн лучше всего работает на типовых enterprise-задачах с формализованными правилами. Это не замена CI/CD, а слой агентного делегирования поверх обычной автоматизации. Главные ограничения - галлюцинации, качество промптов, оргпроцессы и безопасность самого конвейера.

Scope:Читать полностью »

Как я собрал автономную AI-новостную систему за полтора месяца

2026-04-14 в 14:25, admin, рубрики: AI, llm, n8n, python, telegram, автоматизация, агенты, новостной пайплайн

Полтора месяца назад у меня было семь воркфлоу в n8n для новостного пайплайна. Каждый делал что-то своё. Выглядит это, конечно, красиво, наблюдаешь, как крутятся воркеры. Но если посмотреть внутрь, то постоянно происходят какие то сбои. Где-то новость застряла, и сразу разобраться порой не получается. И вроде исправил одно, но следом влезают другие проблемы.

Итог: семь воркфлоу — семь точек отказа. И каждый ломается по-своему.

Читать полностью »

KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов

2026-04-10 в 11:21, admin, рубрики: attention, gpu, kv-cache, llm, prefix caching, prompt caching, Transformers, vllm, машинное обучение, машинное обучение. нейросети

Не так давно лимиты на использование Claude Code резко уменьшились, и люди стали лучше считать свои токены. Я не стал исключением, поэтому первым делом собрал информацию по использованию токенов в своих сессиях и посмотрел, что и сколько бы стоило, если бы отправлял это через API.

Claude Code Session Usage — Читать полностью »

Я разучился получать удовольствие от программирования из-за LLM. Его вернул шкаф

2026-04-09 в 14:47, admin, рубрики: esp32, IoT, llm, автоматизация, выгорание, искусственный интеллект, микроконтроллеры, управление проектами, фриланс

Привет!

Я фрилансер. В последние годы зарабатывал в основном на ТГ‑ботах, мини‑приложениях, автоматизации для маркетплейсов, иногда и на простых сайтах. И в какой‑то момент понял странную вещь: LLM действительно сделали меня сильно эффективнее, расширили диапазон моих услуг, но вместе с этим почти убили ту часть разработки, ради которой я вообще когда‑то в нее пришел.

А потом мне привезли шкаф. И он неожиданно все расставил по местам.

Как я ускорился в 5 раз

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «llm»

Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака

Железо и ожидания

Клинический профиль Gemini: синдром дефицита внимания, пикацизм и психопатия по Ганнушкину

Интеграция Google Gemini API в асинхронный Telegram-бот на aiogram 3.x и Python

Немного про AI для догоняющих

Немного введения

Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы

1. Введение

Pipeline Triad Pattern: конвейер AI-агентов вместо команды разработки

Pipeline Triad Pattern: конвейер AI-агентов вместо команды разработки

Как я собрал автономную AI-новостную систему за полтора месяца

KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов

Я разучился получать удовольствие от программирования из-за LLM. Его вернул шкаф

Как я ускорился в 5 раз