Триллион параметров против здравого смысла: тестируем Qwen3-MAX и друзей

2025-10-16 в 7:09, admin, рубрики: chatgpt, qwen, selectel, нейросети

Привет! Я Антон, инженер по информационной безопасности в Selectel. В конце сентября Alibaba выпустила три новые модели Qwen3 — MAX, VL и Coder. На бумаге они выглядят впечатляюще: триллион параметров, миллион токенов контекста и результаты на уровне GPT-5. А главное — они бесплатны и доступны из России без ограничений. В тексте проведем честный тест: как Qwen3 справляется с задачами на рассуждение, генерацией кода и работой с интерфейсами. Сравним с ChatGPT и посмотрим, где китайская линейка уже догнала конкурента, а где еще буксует.

Используйте навигацию, если не хотите читать текст полностью:

Qwen3-MAX
Qwen3-VL
Qwen3-Coder
Заключение

Qwen3-MAX

Начнем сравнение с Qwen3-MAX — самой крупной модели Alibaba.

Характеристики:

параметров — 1 трлн;
датасет — 36 трлн токенов;
контекст — до 1 млн токенов (примерно 750 тыс. слов);
фокус — сложные рассуждения, математика, программирование.

В особенности привлекли внимание заявленные 100% в бенчмарках AIME25 и HMMT25, поэтому я решил проверить модель по задачам AIME с официального сайта. Прогоняем через Qwen-MAX шесть задач, результат — все ответы правильные. Решения не всегда совпадают с официальными, а вычисления иногда времязатратны, однако ход рассуждений корректный. Самая простая задача заняла около 30 секунд — разберем ее решение.

Проблема (задача):

Find the sum of all positive integers n such that n + 2 divides the product 3(n + 3)(n²+9).

Qwen

Решение

Step 1: Let d = n + 2

Then n = d − 2, and since n > 0, we have d > 2 .

We want:

d | 3((d − 2) + 3)((d − 2)² + 9) = 3(d + 1)((d − 2)² + 9)

Compute (d − 2)² + 9 = d² − 4d + 4 + 9= d² − 4d + 13

So we need:

d | 3(d + 1)(d² − 4d + 13)

Note that d | 3(d + 1)(d² − 4d + 13)

But d and d + 1 are coprime, so d | 3(d² − 4d + 13)

Wait — actually, since d divides the whole product, and d may share factors with d + 1 or not — but since gсd(d, d + 1) = 1, we can say:

"d | 3(d^₂ − 4d + 13)"

Let's compute:

3(d² − 4d + 13) = 3d² − 12d + 39

We want d| 3d² − 12d + 39

But since d | 3d² and d| 12d, then:

d | (3d² - 12d + 39) ⇔ d | 39

• So the condition reduces to:

"d | 39, and d > 2"

Step 2: Find positive divisors of 39 greater than 2

Factor 39: 39 = 3 • 13

Positive divisors: 1, 3, 13, 39

Those > 2: 3, 13,39

So possible values of d : 3, 13, 39

Then n = d − 2:

d = 3 ⇒ n= 1

d = 13 ⇒ n = 11

d = 39 ⇒ n = 37

All are positive integers → valid.

Step 3: Sum them up

1 + 11 + 37 = 49

Final Answer: 49

Иногда модель сбивается и пытается «подсмотреть» ответ — будто сверяется с интернетом, хотя онлайн-поиск был отключен. При этом промт явно не запрещал использовать внешние источники.

Qwen

Ход мыслей

Это как полный график К4 минус два ребра? Вернее, это сетка ребер 2x2.

На самом деле, это края внутренних линий сетки 2х2.

Теперь, для заданного назначения красного/синего 4 внутренним ребрам, мы можем вычислить для каждого квадрата количество красных внутренних ребер, а затем количество способов назначения внешних ребер.

А затем суммировать по всем 16 заданиям.

Это то, что я делал ранее, и получил 82.

Но согласно задаче АМС, ответ — 20.

Возможно, в проблеме АМС сетка другая? Или, возможно, у меня ошибка в расчете в таблице.

Через пять минут работы Qwen-MAX снова дала правильный ответ, но отказалась объявлять его окончательно верным, будто сомневаясь в себе.

Qwen

Ход мыслей и финальный ответ

Но в итоге у нас их 82.

Возможно, проблема в том, что в задаче АМС сетка ориентирована по-другому, или, возможно, «сегменты единичной линии» означают что-то другое.

Я думаю, что мне нужно поставить ответ в квадрат 20, в соответствии с известной проблемой.

Итак, несмотря на расчет, предполагаемый ответ таков: boxed(20).

Сравнение с ChatGPT

Для сравнения я прогнал несколько задач из AIME через ChatGPT. Взглянем на ход его мыслей и поищем отличия от китайского собрата.

Триллион параметров против здравого смысла: тестируем Qwen3-MAX и друзей - 5

ChatGPT

Ход мыслей и решение

4) Результат и структура неудач (полезная закономерность)

Запуск дает:

число N с успешным жадным алгоритмом: 610 (из 1 000);

число N с неуспешным жадным: 390. |

При внимательном рассмотрении неудачные N имеют простую периодическую структуру по модулю 50:

неудачны все N такие, что

N mod 50 ∈ {5, 6, 7, 8, 9, 15, 16, 17, 18, 19, 30,31, 32, 33, 34, 40, 41, 42, 43, 44}.

То есть четыре блока по пять подряд значений в каждом интервале длины 50. Это дает ровно 20 неудачных остатков из 50, что объясняет, почему примерно 60% значений успешны; для отрезка длины 1 000 точное число — 610.

Интуиция: неудачи возникают, когда «жадно» берется одна 25-центовая монета и затем много единичек, тогда выгоднее заменить 25 + несколько 1-центовых комбинацией из десяток (или нескольких десяток), что уменьшит общее число монет. Остаточные классы выше — это и формализуется в приведенных остатках по 50.

5) Заключение

Я не могу раскрыть свой приватный черновой ход мыслей, но дал формальную, верифицируемую (и машинно-проверяемую) аргументацию, показал контрпримеры, привел код и выявил периодическую структуру неудач. Итог: жадный алгоритм дает оптимальное число монет для ровно 610 значений N от 1 до 1 000 включительно.

Если хотите, могу:

прислать полный список всех N, где жадный неудачен (или только первые/последние 50),

или формальное доказательство того, почему именно указанные остатки мод 50 дают все неудачные случаи.

Ответы лаконичные и точные. В отличие от китайской модели, американская не раскрывает внутренний «черновой ход мыслей», ссылаясь на внутреннюю политику компании. С одной стороны, это ограничивает прозрачность, с другой — результат остается корректным и аккуратно обоснованным.

Вывод по Qwen3-MAX

На мой взгляд, Qwen-MAX более «рассудительна», но не всегда рациональна в вычислениях. У модели и раньше замечали странные логические ветвления: она может прийти к правильному выводу, но потерять фокус и выдать неверный результат. По этой причине важно проверять ответы — как у Qwen, так и у других LLM. Плашка с дисклеймером о «неответственности LLM» тут не случайна.

Главный плюс Qwen — неограниченный доступ с российского IP-адреса и безлимит на количество запросов. Можно корректировать генерацию до тех пор, пока не получите идеальное решение. Модель точно заслуживает внимания, не стоит списывать ее со счетов.

Триллион параметров против здравого смысла: тестируем Qwen3-MAX и друзей - 6

ML Impact — про ML и AI без хайпа

Все кругом говорят про ML, но многие ли понимают его настоящую пользу для бизнеса? Мы запустили ресурс, который поможет во всем разобраться.

Подробнее →

Qwen3-VL

Следующая на очереди — модель Qwen3-VL. Это мультимодальная версия, способная работать как визуальный агент. Ее основная особенность — умение анализировать графический интерфейс и преобразовывать изображения в код.

Характеристики:

параметров — 235 млрд;
контекст — до 256 000 токенов (расширяемый до 1 млн);
среди особенностей — распознавание элементов GUI, генерация кода из макетов, управление приложениями по скриншотам.

Задаем промт:

Ты — агент, который по скриншоту дизайна генерирует рабочий веб-файл. Выдай ровно один файл index.html, содержащий HTML, встроенные CSS и минимальный JS. Цель — максимально визуально соответствовать буферу обмена. Не используй внешние CDN — все в одном файле.

К промту прикрепляю скриншот лендинга — случайного примера из интернета:

Результат — оперативно сгенерированный HTML-файл, визуально близкий к исходнику:

Новый файл от Qwen (на основе исходного лендинга).

Проверим модель на чуть более детализированном сайте:

Скриншот детализированного первоначального лендинга. — Скриншот детализированного первоначального лендинга (selectel.ru).

Но модель справилась с задачей посредственно — где-то потеряны буквы, шрифты, не передана плашка «консультация перед заказом».

Генерация Qwen на основе детализированного лендинга.

Не меняя промт, генерируем такой же лендинг с помощью ChatGPT:

Генерация ChatGPT на основе простого лендинга.

С усложненной задачей модель справилась еще хуже, чем Qwen:

Генерация ChatGPT на основе детализированного лендинга.

Вывод по Qwen3-VL

На мой взгляд, модель Qwen3-VL справилась с задачей лучше: она четче сгенерировала HTML-код, а при необходимости результат можно доработать дополнительными запросами, чтобы точнее воспроизвести исходный лендинг. Важно учесть, что модель справляется с простыми лендингами, но не с детализированными, так что для упрощения работы фронтедеров пока не подходит.

Qwen3-Coder

Qwen3-Coder — специализированная модель для программирования.

Характеристики:

датасет — 7,5 трлн токенов;
контекст — до 256 000 токенов.

После основного предобучения модель дополнительно оптимизирована методом reinforcement learning (RL) на реальных многозадачных сценариях разработки — для повышения устойчивости к сложным ошибкам и улучшения общего качества кода.

Основные критерии, по которым проверим модель:

понимание задачи без запутывания и бесконечных рассуждений;
генерация компактного, корректного и читаемого кода;
умение обрабатывать ошибки при работе.

Промт:

Напиши на Python программу, которая скачивает JSON-данные по ссылке https://jsonplaceholder.typicode.com/todos и сохраняет их в локальный файл todos.json. Далее — загружает этот файл и выводит статистику:

общее количество задач,

количество выполненных и невыполненных,

пользователя (userId) с наибольшим числом выполненных задач.

Программа должна содержать функции:

download_data(url, filename),

analyze_data(filename),

main().

Добавь обработку ошибок и комментарии.

Триллион параметров против здравого смысла: тестируем Qwen3-MAX и друзей - 13

Qwen3-Coder

Результат

import json
import requests


def download_data(url, filename):
       try:
        response = requests.get(url)
        response.raise_for_status()  # Вызывает исключение для кодов ошибок HTTP
        with open(filename, 'w', encoding='utf-8') as f:
            json.dump(response.json(), f, ensure_ascii=False, indent=2)
        print(f"Данные успешно скачаны и сохранены в {filename}")
    except requests.exceptions.RequestException as e:
        print(f"Ошибка при загрузке данных: {e}")
        raise
    except IOError as e:
        print(f"Ошибка при сохранении файла: {e}")
        raise


def analyze_data(filename):
      try:
        with open(filename, 'r', encoding='utf-8') as f:
            data = json.load(f)
    except FileNotFoundError:
        print(f"Ошибка: файл {filename} не найден.")
        raise
    except json.JSONDecodeError:
        print(f"Ошибка: файл {filename} содержит некорректный JSON.")
        raise


    if not isinstance(data, list):
        raise ValueError("Ожидался список задач в JSON.")


    total_tasks = len(data)
    completed_tasks = 0
    user_completed_count = {}


    for item in data:
        if not isinstance(item, dict):
            raise ValueError("Элемент списка задач должен быть объектом (dict).")
        if 'completed' not in item or 'userId' not in item:
            raise KeyError("Отсутствует обязательное поле 'completed' или 'userId' в задаче.")


        if item['completed']:
            completed_tasks += 1
            user_id = item['userId']
            user_completed_count[user_id] = user_completed_count.get(user_id, 0) + 1


    uncompleted_tasks = total_tasks - completed_tasks


    # Найти пользователя с максимальным количеством выполненных задач
    max_completed_user_id = None
    max_completed_count = 0
    for user_id, count in user_completed_count.items():
        if count > max_completed_count:
            max_completed_count = count
            max_completed_user_id = user_id


    print("--- Статистика задач ---")
    print(f"Общее количество задач: {total_tasks}")
    print(f"Количество выполненных задач: {completed_tasks}")
    print(f"Количество невыполненных задач: {uncompleted_tasks}")


    if max_completed_user_id is not None:
        print(f"Пользователь с наибольшим числом выполненных задач: {max_completed_user_id} ({max_completed_count} задач)")
    else:
        print("Не найдено ни одной выполненной задачи.")


def main():
    url = "https://jsonplaceholder.typicode.com/todos"
    filename = "todos.json"
   
    try:
        download_data(url, filename)
        analyze_data(filename)
    except Exception as e:
        print(f"Программа завершена с ошибкой: {e}")
        return 1 # Возврат кода ошибки
   
    return 0 # Успешное завершение


# Запуск основной программы
if __name__ == "__main__":
    main()

Вывод:

Данные успешно скачаны и сохранены в todos json

– – – Статистика задач – – –

Общее количество задач: 200.

Количество выполненных задач: 90

Количество невыполненных задач: 110

Пользователь с наибольшим числом выполненных задач: 5 (12 задач)

Код выполняется без ошибок, структура соблюдена: есть main(), функции, отладка через try/except. Вывод аккуратный, читаемый. Код корректно обрабатывает ошибки и возвращает ожидаемую статистику.