Рубрика «transformer»

Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры

2026-03-02 в 0:36, admin, рубрики: E8, edgeai, llm, SLM, transformer, Transformers

Ребята, кажется, мы уперлись в стену. Пока гиганты наращивают параметры и жгут тераватты, пытаясь выжать каплю разума из статистики, я решил пересмотреть сам фундамент. Проблема не в данных, проблема в «вязкости» стандартного Attention.

Суть метода: Я заменил стандартный механизм внимания на нативную Читать полностью »

Куда и почему уходят бабки на нейросети

2026-01-30 в 15:19, admin, рубрики: attention, chatgpt, claude, CUDA, gpu, inference, kv-cache, llm, transformer, токены

Малоизвестный среди обычных людей факт: у нейросетей нет никаких "разговоров". Ты смотришь в веб-интерфейсе на "диалог" - но это обман, красивый фокус.

Каждый раз, когда ты пишешь новое сообщение, все старые сообщения обрабатываются заново. У нейросетей по-настоящему многоразовых задач не существует. Если результат немного поменялся — тебе просто не покажут в веб-интерфейсе изменившиеся сообщения.

Читать полностью »

Компрессор для данных или как я написал свой первый custom transformer

2026-01-25 в 11:16, admin, рубрики: compression, custom transformer, data science, outliner, preprocessing, sklearn, transformer, анализ данных, выбросы

Компрессирование стационарного временного ряда

Читать полностью »

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

2026-01-16 в 23:26, admin, рубрики: AI Security, alignment, jailbreak, prompt injection, red teaming, RLHF, tokenization, transformer

Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать.

Прошло уже больше 3 лет с момента появления первой промпт-инъекции. Кажется, что за это время было сделано всё возможное, были потрачены бюджеты небольших стран на Red TeamingЧитать полностью »

Апокалипсис контента? Взгляд юриста и разбор LLM

2025-11-16 в 11:13, admin, рубрики: llm-модели, transformer, авторегрессия, апокалипсис контента, вероятностная генерация, генерация текста, механизм внимания, нейросети, токенизация

На днях наткнулся на статью, опубликованную в телеграм-канале Habr, под названием «Тихий апокалипсис контента: почему все устали от сгенерированных статей». В ней автор выражает озабоченность количеством сгенерированного контента, который набирает просмотры и вытесняет из выдачи авторские статьи. Статья автора натолкнула меня на идею порассуждать на эту тему, провести небольшие исследования, сравнить процесс генерации текста ИИ и человеком и просто поделиться своим «экспертным» мнением.

Задачи для себя при написании статьи я ставлю следующие:

Читать полностью »

Chronos и AutoGluon-TimeSeries — мощный инструмент прогнозирования временных рядов

2025-09-21 в 13:16, admin, рубрики: arima, AutoGluon, Chronos, transformer, wql, прогнозирование временных рядов

Работая в компании, которая занимается автоматизацией складских процессов, мы столкнулись с задачей прогнозирования нагрузки на склад. Это классическая задача предсказания временных рядов, в которой, имея достаточно большой объем исторических данных (минимум 1-2 года), нужно спрогнозировать, как эти данные будут меняться в будущем.

Читать полностью »

Часть 4: Mamba — State Space Models vs трансформеры

2025-07-06 в 15:10, admin, рубрики: mamba, nlp, ssm, transformer

Обо мне

Привет, меня зовут Василий Техин. За последние 6 лет я прошёл путь от новичка в ML который ни в чем не разбирается, до человека, который может помочь разобраться другим не используя сложной математике и приправляя обьяcнение наглядными примерами. В этой серии статей я разбираю прорывные модели "на пальцах":

Часть 3: Diffusion Transformer (DiT) — Stable Diffusion 3 как она есть

2025-07-02 в 16:11, admin, рубрики: diffusion, stable diffusion, transformer, VAE

Обо мне

Привет, меня зовут Василий Техин. В первой статье мы разобрали ResNet, во второй — ViT. Теперь погрузимся в мир генерации изображений с Diffusion Transformer (DiT) — сердцем Stable Diffusion 3.

Пролог: От распознавания к созданию

Представьте нейросеть как художника. Раньше она только анализировала картины ("Это Ван Гог!"). Теперь она создаёт шедевры в стиле Ван Гога и не только!

Читать полностью »

Часть 2: Vision Transformer (ViT) — Когда трансформеры научились видеть

2025-06-28 в 12:05, admin, рубрики: transformer, Visual transformer, VIT, разбор статьи

Обо мне

Привет, меня зовут Василий Техин, и последние 6 лет я живу в мире машинного обучения — от первых шагов с линейной регрессией до экспериментов с современными VLm.
Когда я только начинал, мне не хватало материалов, где сложные концепции объяснялись бы без формул на трех страницах и обязательного PhD по математике. Я верил (и верю до сих пор), что любую идею можно разложить на понятные кирпичики — так, чтобы после прочтения у вас в голове складывалась цельная картинаЧитать полностью »

Hippo-RAG: Долговременная память для LLM, вдохновленная нейробиологией

2024-11-22 в 5:00, admin, рубрики: llm, machine learning, natural language processing, rag, retrieval, retrieval augmented generation, transformer, Transformers

Ученые часто вдохновляется нашими или животными биологическими структурами: CNN, MLP, Backprop, и для многих других исследований можно найти сходства в реальном мире. Недавно вышла статья, которая делает то же самое, но для RAG (Retrieval-Augmented Generation). В некотором роде, это недостающая современным LLM долгосрочная память. Это понятно, а причем тут неокортекст, гиппокамп и другие сложные слова? Давайте посмотрим.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «transformer»

Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры

Куда и почему уходят бабки на нейросети

Компрессор для данных или как я написал свой первый custom transformer

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

Апокалипсис контента? Взгляд юриста и разбор LLM

Chronos и AutoGluon-TimeSeries — мощный инструмент прогнозирования временных рядов

Часть 4: Mamba — State Space Models vs трансформеры

Обо мне

Часть 3: Diffusion Transformer (DiT) — Stable Diffusion 3 как она есть

Обо мне

Пролог: От распознавания к созданию

Часть 2: Vision Transformer (ViT) — Когда трансформеры научились видеть

Обо мне

Hippo-RAG: Долговременная память для LLM, вдохновленная нейробиологией