Феномен Grokking и Mechanistic Interpretability — главные тренды в исследованиях лабораторий уровня OpenAI и Anthropic. Я решил потрогать эти концепции своими руками на уровне тензоров. Цель казалась тривиальной: заставить кастомный микро-Трансформер (всего 1М параметров) выучить базовую арифметику с нуля. Однако вместо математического гения я получил ленивого мошенника. Эта статья — инженерный детектив о том, как нейросети пытаются нас обмануть (Specification Gaming), и как вскрытие Attention-матриц помогает поймать их за руку.
Рубрика «pytorch»
Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability
2026-03-10 в 13:46, admin, рубрики: ai alignment, grokking, machine learning, pytorch, specification gaming, Transformers50 LLM-клеток пытались построить организм. Вот что получилось
2026-02-15 в 17:37, admin, рубрики: artificial life, llm, python, pytorch, искусственная жизнь, клеточные автоматы, Майкл Левин, машинное обучение, эволюционные алгоритмы, эмерджентностьВ 1970 году математик Джон Конвей придумал игру без игроков.
Сетка. Клетки. Три правила. Меньше двух соседей — умираешь от одиночества. Больше трёх — от тесноты. Ровно три соседа рядом с пустой клеткой — рождается новая.
Всё.
Из этого появились глайдеры — структуры, которые ползут по полю. Пушки, которые стреляют глайдерами. Компьютеры внутри игры, способные вычислять что угодно. Целая вселенная — из трёх строчек логики.
Но вот что не давало мне покоя.
Клетки в «Жизни» не выбирают. Они подчиняются. Правило сработало — клетка умерла. Никаких переговоров.
А что, если дать клеткам мозг?
Читать полностью »
Я заразил 200 нейросетей вирусом. К 20-му поколению они выработали иммунитет — и разучились думать
2026-02-13 в 12:30, admin, рубрики: AI, Alignment Tax, gpt, llm, microGPT, pytorch, безопасность ии, машинное обучение, нейросети, эволюционные алгоритмыЛёха — единственный биолог среди моих друзей. Мы сидим в баре, он тычет телефоном мне в лицо. На экране — чашка Петри. В колонию бактерий вливают бактериофаги. Бактерии лопаются. Колония редеет. Тает. Исчезает.
Перематывает на сутки.
Колония на месте. Как ни в чём не бывало.
«Выжившие передали устойчивость потомкам. Они не понимают вирус. Перебирают мутации, пока что-то не сработает. А потом это наследуется».
Я смотрю на экран и думаю совсем про другое. Вчера Карпати выложил microGPT — минимальную архитектуру GPTЧитать полностью »
Обучение ИИ-моделей на обычном ЦП
2026-01-09 в 20:51, admin, рубрики: cpu, gpu, pytorch, машинное обучение, оптимизацияЕщё раз о ЦП для машинного обучения в эпоху дефицита мощностей GPU
Как мы построили систему видеоаналитики на open source и довели её до продакшена
2025-12-28 в 10:16, admin, рубрики: computer vision, CV, mlops, pytorch, yolo, видеоаналитикаУстранение дисбаланса классов в PyTorch с помощью WeightedRandomSampler
2025-12-20 в 20:25, admin, рубрики: imbalanced classification, pytorch, weightedrandomsamplerКак известно, если в наборе данных для обучения классификатора разные классы представлены в разном объёме, это может привести к ухудшению качества результата.
Одним из методов борьбы с дисбалансом классов является оверсемплинг, т.е. демонстрация классификатору в процессе обучения редких классов с повышенной частотой.
В исследовании 2017 года авторы утверждают, что из всех испробованных ими методов овесемплинг показал лучший результат и не приводил к переобучению классификаторов на основе свёрточных нейронных сетей.
Класс Читать полностью »
Как раздобыть Nvidia Tesla за копейки и не поселиться в психушке: хардкор-гайд от выжившего
2025-11-30 в 15:16, admin, рубрики: AI, china, devops, ml, Nvidia, nvidia cuda, nvidia tesla, nvidia tesla h100, pytorchПривет! Сегодня расскажу вам сагу о том, как мы искали дешёвые AI-мощности для своего проекта и чуть не сошли с ума. Спойлер: спас нас Китай, но эта помощь стоила нам седых волос и нескольких лет жизни. Делюсь опытом, чтобы вы прошли этот путь быстрее.
Меня зовут Михаил, я работаю в компании VizoGEN на позиции CTO и вся история ниже - наш путь.
Пролог: Скромные запросы и растущие аппетиты
Всё начиналось невинно. Как и у многих, наш стек AI-инструментов (полный список — военная тайна, сорян, NDA) на этапе гипотез скромно кушал с 3080 TI. Потом пошло-поехало: 4080, а там и до 4090 TI рукой подать.
Как мы адаптировали LLM для русского языка
2025-11-09 в 13:55, admin, рубрики: deeplearning, llm, machinelearning, mawo, nlp, ProductionML, pytorch, RussianNLP, tokenizationИстория про токенизацию, научные статьи и production reality
Как мы потратили 2 месяца на адаптацию Qwen3-0.6B для русского языка. Написали систему с нуля на основе 8 научных статей из arXiv. Исправили 6 критических багов (от NaN в fp16 до архитектурных проблем). Получили +35% training speed и +60% inference speed. В этой статье - честный рассказ о том, что не работает из коробки, какие грабли ждут в production, и как мы их обошли.
Мы - это я и мой друг =)
Как всё началось
Август 2025. Мы работаем над MAWO - системой fine-tuning для русскоязычных LLM. У нас есть модель Qwen3-0.6B. Почему именно 0.6B, а не 8B или 70B?
Production AI сервер за ₽0: полный гайд по сборке ML-станции для Stable Diffusion на б-у комплектующих
2025-10-31 в 14:20, admin, рубрики: AI, CUDA, deeplearning, DIY, gpu, hardware, machinelearning, python, pytorch, stablediffusion
Я это сделал. За один день.
Часть 1: Аппаратная часть
Выбор видеокарт: RTX 2060 vs RTX 1060
Momentum Attention: когда внимание получает инерцию
2025-10-27 в 15:58, admin, рубрики: AI, attention, deep learning, machine learning, pytorch, research, Transformers, нейросетиВ классическом self-attention каждый токен смотрит на другие токены, чтобы понять, что важно в данный момент.
Внимание распределяется мгновенно:

Именно этот механизм сделал трансформеры тем, чем они стали.
Но вот в чём проблема - внимание не имеет памяти.
Читать полностью »

