Рубрика «deeplearning»

Как мы адаптировали LLM для русского языка

2025-11-09 в 13:55, admin, рубрики: deeplearning, llm, machinelearning, mawo, nlp, ProductionML, pytorch, RussianNLP, tokenization

История про токенизацию, научные статьи и production reality

Как мы потратили 2 месяца на адаптацию Qwen3-0.6B для русского языка. Написали систему с нуля на основе 8 научных статей из arXiv. Исправили 6 критических багов (от NaN в fp16 до архитектурных проблем). Получили +35% training speed и +60% inference speed. В этой статье - честный рассказ о том, что не работает из коробки, какие грабли ждут в production, и как мы их обошли.

Мы - это я и мой друг =)

Как всё началось

Август 2025. Мы работаем над MAWO - системой fine-tuning для русскоязычных LLM. У нас есть модель Qwen3-0.6B. Почему именно 0.6B, а не 8B или 70B?

Читать полностью »

Production AI сервер за ₽0: полный гайд по сборке ML-станции для Stable Diffusion на б-у комплектующих

2025-10-31 в 14:20, admin, рубрики: AI, CUDA, deeplearning, DIY, gpu, hardware, machinelearning, python, pytorch, stablediffusion

Я это сделал. За один день.

Часть 1: Аппаратная часть

Выбор видеокарт: RTX 2060 vs RTX 1060

Читать полностью »

Градиентный спуск: как «слепой в лабиринте» находит выход в миллиардном пространстве — и почему это сердце любого ML

2025-10-28 в 13:33, admin, рубрики: adam, AI, deeplearning, градиентный спуск, ИИ, ИИ и машинное обучение, искусственный интеллект, нейросети, нейросеть, обучение

Пошаговый разбор с метафорами, формулами и лайфхаками, которые спасут ваш fit()

Читать полностью »

ИИ в 3 фазы… снижение рисков, экономия времени и помощь человеку. Но …— нужно дать пользу уже на первом шаге

2025-09-16 в 13:51, admin, рубрики: autoencoder, cnn, CV, data science, deeplearning, Внедрение, искусственный интеллект, разработка

«В крупных компаниях ИИ не продается как технология. Он продается как снижение рисков, экономия времени и помощь человеку.
Но чтобы его купили — нужно дать пользу уже на первом шаге.
Вот как мы сделали это без бюджета, без команды и с одними только идеями»

1. Введение: Не про ИИ. Про то, как заставить бизнес поверить в изменения

Привет!

Меня зовут Алексей. Я руковожу направлением искусственного интеллекта в федеральном холдинге.
Моя задача — не «внедрить нейросеть», а сделать так, чтобы люди перестали бояться изменений.

Раньше сотрудникам требовалось 40–60 минут, чтобы создать документ выбраковки:
Читать полностью »

Готовимся к собесу: positional encodings в 2025 году

2025-07-09 в 16:44, admin, рубрики: computer vision, deeplearning, gpt, nlp, вход в it, подготовка к собеседованию, собеседование

Если вы до сих пор считаете, что positional encoding в трансформерах — это знаменитые sin/cos из статьи 2017 года, то боюсь, что собеседование для вас закончится автоматическим реджектом.

Позиционное кодирование заметно эволюционировало с момента появления оригинальной статьи о трансформерах. В современных LLM и моделях компьютерного зрения, таких как FLUX, уже давно не используется классическое sin/cos-кодирование.

Про это почему-то не знают 80% кандидатов на интервью, хотя, казалось бы, эта информация уже давно перешла в разряд «базовой классики».

Читать полностью »

Оптимизация нейронных сетей для AI — переводчика

2025-06-09 в 11:18, admin, рубрики: AI, deeplearning, language model, machinelearning, translator, искусственный интеллект, машинный перевод, нейросети, языковые модели

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи.

В этой статье рассматриваются несколько подходов, которые помогают повысить эффективность и качество языковых моделей для перевода. В качестве основы для тренировки моделей мы используем OpenNMT-tf.

Читать полностью »

Обзор техник RAG: Retrieval Augmented Generation

2025-04-24 в 11:15, admin, рубрики: deeplearning, DL, large language model, llm, machinelearning, ml, natural language processing, nlp, rag, retrieval augmented generation

Рассмотрим техники построения и улучшения RAG систем: от нарезания текстов на куски, до продвинутых способов улучшения качества ответа.

Этим блогом можно пользоваться как шпаргалкой для проектирования своего RAG-а и/или для подготовки к собеседованиям.

Все полезные ссылки и материалы, на которые я опирался будут в конце.

Что такое RAG и зачем нужен

RAG - это фреймворк взаимодействия предобученной LLM с базой знаний. То есть при ответе LLM на запрос пользователя модель отвечает используя актуальный контекст из базы и свои pre-trained знания.

Читать полностью »

Задача Emotional FusionBrain 4.0: итоги и победители

2024-12-10 в 13:33, admin, рубрики: artificial intelligence, deeplearning, natural language processing, большие языковые модели, мультимодальные данные, мультимодальные модели, Сбер, соревнования, хакатон, Хакатоны

Всем привет! На связи снова лаборатория FusionBrain!

В сентябре мы анонсировали задачу Emotional FusionBrain 4.0, которая стала частью соревнования AI Journey Contest. Участникам предстояло разработать универсальную мультимодальную модель, которая учится понимать социальные взаимодействия людей по видео — другими словами, создать эмоциональный искусственный интеллект.

Теперь пришла пора подводить итоги!

Но начнём мы, конечно же, с описания задачи, чтобы уважаемые читатели оказались в едином контексте :)

Читать полностью »

Как мы сделали систему для спасения интернета от токсичности

2024-10-25 в 20:25, admin, рубрики: AI, dataScience, deeplearning, llm, nlp

Токсичность в интернете — распространенная проблема, с которой сталкивался каждый. В период бурного развития AI само собой напрашивается решение для автоматического удаления токсичных паттернов с сохранением исходного смысла и оригинального стиля автора. Один из таких подходов - использование NLP seq2seq моделей, которые мы обучаем на парах (тоcкичное предложение; нетоксичное предложение):

Читать полностью »

Как простые NLP модели видят слова? | NLP | Пишем свой TF-IDF

2024-08-17 в 12:15, admin, рубрики: AI, deeplearning, jupyter notebook, machinelearning, math, nlp, numpy, pandas, python, tfidfvectorizer

Как модели видят наш текст?

Когда начинаешь погружаться в сферу NLP, сразу задумываешься, как модели представляют себе наш текст/наши слова? Ведь не логично бы звучало, если модель обрабатывала наши слова, как обычную последовательность букв. Это было бы не удобно и не понятно(как проводить операции со словами?).

Есть разные методы преобразования слов. Один из самых известных для не самых сложных моделей: TF-IDF.

Как работает TF-IDF?

TF-IDF(Term Frequency-Inverse Document Frequency) — это метод, который преобразует слова в числовые векторы, что делает их более понятными для моделей машинного обучения.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «deeplearning»

Как мы адаптировали LLM для русского языка

История про токенизацию, научные статьи и production reality

Как всё началось

Production AI сервер за ₽0: полный гайд по сборке ML-станции для Stable Diffusion на б-у комплектующих

Часть 1: Аппаратная часть

Выбор видеокарт: RTX 2060 vs RTX 1060

Градиентный спуск: как «слепой в лабиринте» находит выход в миллиардном пространстве — и почему это сердце любого ML

ИИ в 3 фазы… снижение рисков, экономия времени и помощь человеку. Но …— нужно дать пользу уже на первом шаге

1. Введение: Не про ИИ. Про то, как заставить бизнес поверить в изменения

Готовимся к собесу: positional encodings в 2025 году

Оптимизация нейронных сетей для AI — переводчика

Обзор техник RAG: Retrieval Augmented Generation

Что такое RAG и зачем нужен

Задача Emotional FusionBrain 4.0: итоги и победители

Как мы сделали систему для спасения интернета от токсичности

Как простые NLP модели видят слова? | NLP | Пишем свой TF-IDF

Как модели видят наш текст?

Как работает TF-IDF?