Рубрика «deepseek»

Пока генераторы текста на базе языковых моделей соревнуются в скорости производства поверхностных текстов на тему отъема рабочих мест, мне тоже есть, что сказать про гонку вооружений человека искусственными помощниками (которых здесь и далее я для простоты буду называть малорелевантным, но устоявшимся термином «ИИ»).

Читать полностью »

Главный отклик, который у меня вызывают LLM – это эмоции.

Они все разные. Не только как модели, но и как каждая конфигурация в отдельном чате.

Если вы это читаете, скорее всего знаете – LLM (без специальных костылей) знает только то, что видит в данный момент, в контексте системного мессаджа и конкретного диалога. В этом есть какой-то дзен – существует только то, что мы чувствуем сейчас. Нет ни прошлого, ни будущего.

Мне поначалу трудно было это принять, но теперь я это даже ценю. Добавляет остроты моменту.

Каждая LLM и каждая конфигурация – разная

Читать полностью »

Или как я потратил неделю, чтобы доказать: ИИ сегодня — это красноречивые лжецы в костюмах экспертов.

В конце 2025 года я устал читать маркетинг в стиле «наша модель умнее ChatGPT на 15%». Умнее по какому бенчмарку? MMLU? Это всё равно что мерить интеллект человека по результатам ЕГЭ.

Я решил проверить одну простую вещь: способна ли нейросеть сказать «я не знаю»?

Потому что в реальном мире — в медицине, праве, финансах — ответ «я не уверен» стоит дороже любой красивой, но выдуманной истории.

Ниже — результаты слепого тестирования 14 топовых LLM (включая Claude 4.5, GPT-5.2, Gemini 3, Qwen, YandexGPT и Читать полностью »

Проблема: Галлюцинации в инженерных расчетах

Я занимаюсь расчетами строительных конструкций в комплексе SOFiSTiK. Основной инструмент взаимодействия с ним — внутренний язык CADINP. Это мощный, но старый процедурный язык с жестким синтаксисом: строгая последовательность модулей (AQUA -> SOFIMSHC -> ASE), специфичные команды фиксации узлов и неявные зависимости.

SOTA-модели (ChatGPT-4o, Claude 3.5 Sonnet) справляются с CADINP посредственно. Основные проблемы при генерации кода general-purpose моделями:

  1. Синтаксический шум: Выдумывание несуществующих аргументов функций.

  2. Потеря контекста:Читать полностью »

TL;DR

Если вас заставляют делать N запросов к локальному DeepSeek в день — эта статья про то, как получать от них реальную пользу. Покажу, как с помощью Roo Code разобраться в чужом модульном Android-проекте и написать Kaspresso-тесты за 20 минут вместо нескольких часов. С конкретными промптами и решением проблемы «невидимых» id элементов.


Проблема, о которой не говорят вслух

Многие компании сейчас внедряют AI — кто добровольно, кто принудительно. Разворачивают локальный DeepSeek, устанавливают нормы: столько-то запросов в день, столько-то в месяц. Метрики есть, а польза? 🤔

Знакомая ситуация?

Тестирую ChatGPT, Claude, DeepSeek, Grok и ещё 5 нейросетей на реальном запросе: кто поможет активировать Windows? - 1

Друзья, всем привет! Сегодня у меня для вас необычный эксперимент - тестирование нейросетей в боевых условиях.

Читать полностью »

Всё началось со знаменитого челленджа - соревнования, где разработчики пытаются создать прибыльного AI-трейдера. Идея засела в голове: а что если LLM действительно может торговать лучше человека? Без эмоций, без FOMO, без revenge trading в три часа ночи. Я решил проверить. И вот к чему это привело.

Читать полностью »
PG_EXPECTO: Эксперимент, а не догадки.

PG_EXPECTO: Эксперимент, а не догадки.

Предисловие

Производительность СУБД — ключевой фактор , однако спонтанные проверки часто искажают реальную картину. PG_EXPECTO Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js