Рубрика «llm»

Я давно слежу за развитием локальных LLM, но всегда упирался в одно и то же — либо модель маленькая и качество не устраивает, либо большая и не влезает в видеопамять. Всё изменилось когда я наткнулся на статью про MoE-модели и параметр -cmoe в llama.cpp.

Расскажу как я запустил Qwen3.6 35B-A3B на RTX 4070 12GB с 32GB RAM, настроил его как AI-ассистент для реального проекта в opencode, и почему теперь эта модель у меня работает постоянно.


Железо и ожидания

Моя конфигурация:

  • GPU: RTX 4070 12GB VRAM

  • RAM: 32GB DDR4

  • CPU: 12 физических ядер

  • OS: Windows 11 + WSL2 (Ubuntu)

Читать полностью »

В прошлую пятницу, ровно в 18:47, когда я уже мысленно открывал великолепный, наполненный витаминами, напиток, мне прилетело сообщение от тимлида: «Бот лежит, пользователи жалуются, Gemini API возвращает 429». Наш корпоративный Telegram-бот, который должен был помогать саппорту отвечать на тикеты, просто встал колом. Причина оказалась до банальности простой: мы не учли rate limiting и думали, что 50 RPM (запросов в минуту) на бесплатном тарифе — это «бесконечно много». С тех пор мы переписали архитектуру, добавили очереди, кэширование и middleware для retry. В этой статье разберу, как с нуля подружить Gemini API с Telegram-ботом на aiogram 3.x, не наступая на те же грабли.Читать полностью »

Не тот мудр, кто знает всё, а тот, кто знает, кого спросить.

Немного введения

В настоящее время тема искусственного интеллекта (AI) перестала быть уделом исследователей и энтузиастов — она ворвалась в повседневную работу инженеров, аналитиков, менеджеров и, по сути, всех, кто хоть как‑то взаимодействует с текстом, кодом или данными.

Читать полностью »

Технократический разбор для инженеров и бизнес-аналитиков. Без преувеличений и продающих лозунгов.

Данная статья представляет собой результат кабинетного исследования об основных особенностях работы ИИ (LLM, модель). Здесь в систематизированном виде относительно простым языком описано, как реализуется вся та “магия” про ИИ, с которой мы сталкиваемся сами или слышим в восторженно-продающих материалах.

Сразу уточню, что под ИИ тут понимается именно публичная Большая языковая (текстовая) модель (LLM), вроде ЧатаГПТ, ГигаЧата, Дипсика и др.

В этой статье мы:

System prompt — это просьба. Guardrails — это принуждение.


1. Введение

Когда я впервые внедрял LLM в production-сервис, схема безопасности выглядела примерно так: написать хороший system prompt, поставить галочку «мы всё предусмотрели» и жить дальше. Жизнь не дала долго наслаждаться этим спокойствием — первый же тест показал, что пользователи довольно быстро находят способы заставить модель «забыть» всё, что мы написали в системном промпте.

Проблема фундаментальная: system prompt — это инструкция, которую LLM старается выполнить, но не обязанЧитать полностью »

Pipeline Triad Pattern: конвейер AI-агентов вместо команды разработки

TL;DR

Pipeline Triad Pattern - это не один AI-агент, а конвейер троек: Создатель, Критик и Арбитр. Каждая тройка закрывает свой этап SDLC, человек включается только в 4 контрольных точках, а сам паттерн лучше всего работает на типовых enterprise-задачах с формализованными правилами. Это не замена CI/CD, а слой агентного делегирования поверх обычной автоматизации. Главные ограничения - галлюцинации, качество промптов, оргпроцессы и безопасность самого конвейера.

Scope:Читать полностью »

Полтора месяца назад у меня было семь воркфлоу в n8n для новостного пайплайна. Каждый делал что-то своё. Выглядит это, конечно, красиво, наблюдаешь, как крутятся воркеры. Но если посмотреть внутрь, то постоянно происходят какие то сбои. Где-то новость застряла, и сразу разобраться порой не получается. И вроде исправил одно, но следом влезают другие проблемы.

Итог: семь воркфлоу — семь точек отказа. И каждый ломается по-своему.

Читать полностью »

Не так давно лимиты на использование Claude Code резко уменьшились, и люди стали лучше считать свои токены. Я не стал исключением, поэтому первым делом собрал информацию по использованию токенов в своих сессиях и посмотрел, что и сколько бы стоило, если бы отправлял это через API.

Claude Code Session Usage

Привет!

Я фрилансер. В последние годы зарабатывал в основном на ТГ‑ботах, мини‑приложениях, автоматизации для маркетплейсов, иногда и на простых сайтах. И в какой‑то момент понял странную вещь: LLM действительно сделали меня сильно эффективнее, расширили диапазон моих услуг, но вместе с этим почти убили ту часть разработки, ради которой я вообще когда‑то в нее пришел.

А потом мне привезли шкаф. И он неожиданно все расставил по местам.

Как я ускорился в 5 раз

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js