Рубрика «RLHF»

Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

2026-04-17 в 9:15, admin, рубрики: function calling, llm, rag, RLHF, агенты, искусственный интеллект, нейросети, цифровой двойник, языковые модели

Технократический разбор для инженеров и бизнес-аналитиков. Без преувеличений и продающих лозунгов.

Данная статья представляет собой результат кабинетного исследования об основных особенностях работы ИИ (LLM, модель). Здесь в систематизированном виде относительно простым языком описано, как реализуется вся та “магия” про ИИ, с которой мы сталкиваемся сами или слышим в восторженно-продающих материалах.

Сразу уточню, что под ИИ тут понимается именно публичная Большая языковая (текстовая) модель (LLM), вроде ЧатаГПТ, ГигаЧата, Дипсика и др.

В этой статье мы:

Читать полностью »

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

2026-01-16 в 23:26, admin, рубрики: AI Security, alignment, jailbreak, prompt injection, red teaming, RLHF, tokenization, transformer

Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать.

Прошло уже больше 3 лет с момента появления первой промпт-инъекции. Кажется, что за это время было сделано всё возможное, были потрачены бюджеты небольших стран на Red TeamingЧитать полностью »

RL (RLM): Разбираемся вместе

2025-10-19 в 20:24, admin, рубрики: llm, PPO, Proxi, reinforcement learning, RL, RLHF, Алгоритмы, большие языковые модели, искуственный интеллект, машинное обучение

Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).

Вы наверняка слышали про такие модели, как o1 от OpenAI или QwQ от Alibaba. Их "рассуждающие" способности во многом — результат применения RL. Давайте разберемся, как обычный принцип обучения, известный по играм вроде AlphaGo, помогает языковым моделям стать умнее.Читать полностью »

Практика alignment: данные, RLHF и UX как конкурентное преимущество

2025-09-22 в 11:01, admin, рубрики: AI, alignment, alignment ai, chatgpt, Fine-tuning, llm, machinelearning, ml, RLHF, согласованность

Взгляд на самую большую проблему в мире ИИ, почему это важно для вас и почему это так ценно.

Практика alignment: данные, RLHF и UX как конкурентное преимущество - 1

Читать полностью »

DeepSeek-R1 для чайников

2025-02-03 в 19:30, admin, рубрики: chatgpt, deepseek, llm, nlp, reasoning models, RLHF

В последние месяцы всё чаще слышим про «reasoning-модели», способные не просто продолжать текст, а действительно шаг за шагом решать сложнейшие задачи цепочкой рассуждений (chain-of-thought). Впервые такой подход эффектно показали в OpenAI o1, но, к сожалению, подробности там остаются секретными. Недавно же команда DeepSeek наделала шуму с открытыми вариантами R1 и R1-Zero, созданными поверх их собственной большой MoE-модели DeepSeek-V3. В этом посте я не стану углубляться в вопрос «чья модель лучше — o1 или R1». Зато разберу, какие главные технические деталиЧитать полностью »

Законы масштабирования – архитектура O1 Pro — Инфраструктура синтетических данных, RLAIF, токеномика вычислений

2024-12-27 в 11:09, admin, рубрики: AI Lab, Claude 3.5 Opus, llm, O1 Pro, OpenAI, RLAIF, RLHF, supervised fine-tuning, Законы масштабирования, синтетические данные

С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИ Читать полностью »

Poisoned Data — отравление данных для LLM и создание «Спящего Агента»

2024-08-20 в 6:00, admin, рубрики: AI, ai alignment, llm, RLHF, искусственный интеллект

Существует множество примеров того, как злоумышленники могут атаковать модели, развернутые в инференсе через адверсальные атаки или jailbreaking. (Вкусная подборочка из лекции Карпатого была у меня тут).

Читать полностью »

ChatGPT — лучший помощник программиста. Примеры реальных задач. Плагины и инструменты

2023-04-17 в 9:00, admin, рубрики: chatgpt, e2b, gpt-4, llama, llm, OpenAI, playwright, RLHF, ruvds_статьи, Wolfram Alpha, wolfram language, Блог компании RUVDS.com, будущее здесь, будущее программирования, ИИ, искусственный интеллект, машинное обучение, новые профессии, обучение с подкреплением, Программирование, промт-инженеры

Языковая модель ChatGPT никогда не заменит программиста, потому что непосредственно редактирование кода — это крохотная часть разработки (5% по времени). Зато ChatGPT великолепно помогает. И чем выше ваш скилл — тем больше пользы от «подмастерья», выполняющего мелкие задания и черновой кодинг. Он пишет простые функции, генерирует документацию, находит и объясняет ошибки, выполняет кучу других задач (полный список под катом).

Сегодня не использовать ChatGPT просто глупо… Это действительно универсальный помощник, который сильно облегчает жизнь и выводит программирование на принципиально новый уровень. Одно из величайших изобретений в IT за десятилетия, после GUI и интернета.

Пожалуй, никогда программирование не было настолько приятным и эффективным, как сейчас.
Читать полностью »

Информация

Комментарии

Рекомендуем