Рубрика «DeepSeek R1»

В интернете широко обсуждают опубликованный в Nature отчет авторов DeepSeek, в котором якобы заявляется, что обучение модели R1 обошлось компании всего в 294 тысячи долларов. Цифра выглядит сенсационной, ведь конкуренты тратят на создание своих моделей в тысячи раз большие суммы: например, для Claude Sonnet 3.7 давали оценку в несколько десятков миллионов долларов. Если бы взятая из Nature цифра была правдой, то получилось бы так, что у конкурентов нет никаких шансов перед командой DeepSeek. Но это не так.

Читать полностью »

Сравнительный анализ локальных и облачных LLM

Всем привет! Я — Иван, инженер по разработке AI-систем CodeInside. Мы разрабатываем и внедряем кастомные AI-решения — от интеллектуальных поисковых систем на основе RAG до специализированных AI-агентов и ассистентов для автоматизации процессов в бизнесе и промышленности.

Читать полностью »

Введение

После сборки домашнего сервера для работы с LLM DeepSeek-R1 подробно о нём можно прочитать в статье Локальный DeepSeek-R1-0528. Когда скорость улитки – не приговор, а точка старта возникла потребность сравнить разные квантизации для оптимизации скорости/качества работы. Запуская работу с разными моделями, я заметил что квантизация зачастую приводит к ускорению генерации токенов.
Читать полностью »

Зачем?

У меня возникло желание запустить локальную версию DeepSeek R1 и V3. Это связано с необходимостью избежать рисков связанных с блокировками доступа и утечкой данных. Ещё добавилось желание протестировать разнообразные настройки LLM. До этого момента я пробовал запускать разные небольшие модели исключительно на cpu. А вот опыта с большими моделями не было.

Где?

Читать полностью »

Ранее на моем YouTube-канале уже были видео о моделях рассуждений — OpenAI o1/o3, DeepSeek R1. Эти модели обучены с помощью стратегии reinforcement learning находить решения для задач, требующих логических рассуждений. Способность строить цепочки рассуждений, ведущих к решению поставленной задачи, открывают возможность применения таких моделей в математике, программировании и других подобных направлениях.​

Читать полностью »

Последние месяцы рынок AI буквально кипит — одна за другой выходят мощные новинки. ChatGPT-4.5 от OpenAI, GROK-3 от X, свежие релизы от Google Gemini — и Anthropic не осталась в стороне, наконец представив свою свежую модель: Claude 3.7 Sonnet. Как заявляют разработчики, новая модель не просто стала быстрее и умнее своих предшественников, она буквально является гибридной моделью рассуждений

Читать полностью »
ChatGPT-4.5: бенчмарки, генерация художественных текстов и сравнение с DeepSeek-r1 - 1

В конце февраля OpenAI официально представила ChatGPT-4.5 — самую крупную и продвинутую модель для диалогового взаимодействия на сегодняшний день. 4.5Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js