QwQ-32B: обзор и сравнение с o3 / DeepSeek-R1

QwQ-32B — открытая reasoning-модель Qwen на 32.5B параметров. Разбираем, где она сильнее DeepSeek-R1 и почему она не заменяет o3.

QwQ-32B — reasoning-модель от Qwen Team с открытыми весами и лицензией Apache 2.0. По официальному model card это модель на 32.5B параметров с контекстом 131 072 токена, обученная через post-training с reinforcement learning. Практический смысл QwQ в том, что она подводит open-source reasoning к уровню DeepSeek-R1, но делает это в гораздо более компактном размере.

Главный вопрос про QwQ не в том, «обгоняет ли она всех», а в том, насколько близко она подходит к закрытым и тяжёлым reasoning-моделям. По официальному бенчмарк-чарту Qwen модель почти вровень с DeepSeek-R1 на AIME24 (79.5 vs 79.8), уступает на LiveCodeBench (63.4 vs 65.9), но обходит R1 на LiveBench (73.1 vs 71.6) и BFCL (66.4 vs 60.3). Это делает QwQ очень сильной ставкой для тех, кому нужны открытые веса, а не только API.

QwQ-32B лучше воспринимать не как «убийцу o3», а как очень сильную открытую reasoning-модель среднего размера. o3 остаётся премиальным закрытым вариантом с лучшей экосистемой инструментов и визуальным reasoning, а QwQ — это способ получить глубокие рассуждения без привязки к одному API-провайдеру.

Модель	Статус	Размер / доступ	Что главное
QwQ-32B	Open weights, Apache 2.0	32.5B, self-hosting / providers	Лучший баланс между открытостью и сильным reasoning
DeepSeek-R1	Open weights, MIT	671B MoE, 37B active	Сильнее как «большая открытая reasoning-модель» и богаче по экосистеме
o3	Closed API	Проприетарная модель OpenAI	Наивысший потолок качества, tools, vision, зрелая API-интеграция

Почему QwQ-32B вообще важна

У open-source reasoning долго была развилка:

либо маленькие distill-модели, которые уже умеют «думать», но уступают на сложных задачах;
либо большие reasoning-модели вроде DeepSeek-R1, которые сильны, но тяжелы в инфраструктуре.

QwQ-32B занимает промежуточную позицию. По официальному model card у неё:

32.5B параметров
131 072 токена контекста
Apache 2.0 лицензия
обучение через SFT + reinforcement learning

Это не «лёгкая модель для ноутбука», но уже и не уровень полной R1, где инфраструктурный порог существенно выше.

QwQ vs DeepSeek-R1: близко по качеству, намного компактнее

Официальный чарт Qwen удобен тем, что сравнивает QwQ-32B и DeepSeek-R1 напрямую на одном наборе метрик:

QwQ-32B vs DeepSeek-R1 — официальные бенчмарки Qwen (%)

AIME24 — QwQ-32B79.5%

AIME24 — DeepSeek-R179.8%

LiveCodeBench — QwQ-32B63.4%

LiveCodeBench — DeepSeek-R165.9%

LiveBench — QwQ-32B73.1%

LiveBench — DeepSeek-R171.6%

BFCL — QwQ-32B66.4%

BFCL — DeepSeek-R160.3%

Из этого видно важное:

на математике QwQ почти равна R1;
на live coding немного уступает;
на instruction following и function calling-подобных задачах может быть лучше;
всё это достигается моделью на 32.5B, а не на 671B MoE.

Именно поэтому QwQ — не «ещё одна открытая модель», а сильный кандидат на практический reasoning без гигантской инфраструктуры.

Архитектурно QwQ и R1 решают похожую задачу разными путями

Критерий	QwQ-32B	DeepSeek-R1
Лицензия	Apache 2.0	MIT
Формат	Открытые веса	Открытые веса
Размер	32.5B dense	671B MoE, 37B active
Контекст	131,072	128K
Видимое мышление	Да, через `<think>`	Да
Основная идея	Компактный open reasoning	Максимум качества в open reasoning

Практический вывод простой: если вы хотите reasoning-модель для собственной инфраструктуры, QwQ часто выглядит рациональнее. Если вы готовы платить инфраструктурной сложностью ради верхней границы качества в open-source, DeepSeek-R1 остаётся более тяжёлой, но логичной альтернативой.

По официальной странице Models & Pricing, на 16 марта 2026 модель deepseek-reasoner в API соответствует уже DeepSeek-V3.2 (Thinking Mode), а не исходному APP/WEB-варианту R1. При этом на странице релиза R1 от 20 января 2025 до сих пор указаны старые цены $0.55 / $2.19, тогда как текущая pricing-страница показывает $0.28 / $0.42 для deepseek-reasoner. Для продакшена ориентироваться нужно на текущую pricing-страницу, а не на старый release post.

QwQ vs o3: это не честный бой в лоб

С o3 сравнение другое. OpenAI описывает o3 как свою самую мощную reasoning-модель, которая ставит новый SOTA на Codeforces, SWE-bench и MMMU, а также умеет reasoning с изображениями и полноценный tool use в API/ChatGPT. По сути, o3 — это не просто модель весов, а готовый продуктовый слой поверх reasoning.

У QwQ-32B другой профиль:

открытые веса вместо managed-only API;
меньше размер и больше контроль над развёртыванием;
нет такой же нативной продуктовой экосистемы инструментов, как у o3;
нет такой же явной ставки на multimodal + agentic tool use.

Поэтому QwQ стоит сравнивать с o3 не вопросом «кто умнее вообще», а вопросом «что вы хотите купить или развернуть».

Без техники

{ "title": "Неправильное ожидание", "content": "QwQ-32B заменит o3 во всех сценариях, потому что она открытая и почти догоняет DeepSeek-R1." }

С техникой

{ "title": "Более точное ожидание", "content": "QwQ-32B — сильная открытая reasoning-модель для self-hosting и кастомных стеков. o3 — премиальный закрытый выбор, когда важнее максимум качества, native tools, vision и готовая API-экосистема." }

Где какая модель выигрывает

Сценарий	Лучший выбор	Почему
Self-hosted reasoning для внутреннего продукта	QwQ-32B	Сильный reasoning при намного меньшем размере, чем у R1
Открытая модель для сложной математики и кода	DeepSeek-R1	Чуть выше потолок в open reasoning, особенно как «большая» модель
Критичный production c tool use и visual reasoning	o3	Самая зрелая закрытая экосистема и фронтирное качество
Ограниченный бюджет на managed reasoning в Qwen-экосистеме	`qwq-plus`	Официальный managed reasoning API у Alibaba Cloud
Эксперименты, кастомные пайплайны, контроль над весами	QwQ-32B	Apache 2.0 и прямой доступ к модели

Итог по выбору

Если говорить жёстко:

QwQ-32B — лучший кандидат, когда вам нужен открытый reasoning без монструозной инфраструктуры
DeepSeek-R1 — вариант, когда вы хотите максимум из open reasoning и готовы жить с более тяжёлой моделью
o3 — вариант, когда вы покупаете не только reasoning, но и весь продуктовый верхний слой OpenAI

Именно поэтому QwQ — очень сильное дополнение к стеку, но не универсальная замена ни R1, ни o3.

Плюсы

Открытые веса и Apache 2.0 — минимум vendor lock-in
32.5B — намного практичнее для self-hosting, чем полная DeepSeek-R1
На официальных бенчмарках Qwen очень близка к R1
Сильна не только в математике, но и в LiveBench/BFCL
Длинный контекст: 131K токенов

Минусы

Это всё ещё тяжёлая модель, не «ноутбучный default»
По продуктовой зрелости и multimodal/tool stack уступает o3
Легко запутаться между QwQ-32B и managed-моделью qwq-plus
Для long-context выше 8K токенов нужно отдельно думать про YaRN
Open-source reasoning всё ещё требует более аккуратной настройки, чем закрытые managed API

Как запускать QwQ-32B без потери качества

У Qwen есть несколько рекомендаций, которые реально влияют на результат. Хороший production-паттерн выглядит так:

Базовый запуск через `transformers`

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/QwQ-32B"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {
        "role": "user",
        "content": "Разбери сложность этого алгоритма и предложи оптимизацию по памяти.",
    }
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)

inputs = tokenizer([text], return_tensors="pt").to(model.device)
output = model.generate(
    **inputs,
    max_new_tokens=4096,
    do_sample=True,
    temperature=0.6,
    top_p=0.95,
    top_k=40,
)

generated = output[0][len(inputs.input_ids[0]):]
response = tokenizer.decode(generated, skip_special_tokens=True)
print(response)

Практическое правило для агентов и copilots

Если вы строите агентный пайплайн, QwQ удобно ставить как:

planner / analyst для сложных шагов;
reviewer для кода и reasoning-heavy ответов;
fallback к более дешёвой модели для рутинных задач.

Такой каскад обычно выгоднее, чем пускать каждую задачу на большую reasoning-модель.

ПромптQwQ-32B

У меня есть сервис на Python. P95 latency выросла с 220ms до 780ms после добавления персонализированных рекомендаций. Дай план диагностики так, чтобы сначала исключить самые дешёвые гипотезы.

Ответ модели

Нужно не сразу винить Python или модель рекомендаций. Сначала разделю проблему по слоям: приложение, БД, сеть, внешние вызовы, кэш, модель рекомендаций. Пользователь просит порядок от самых дешёвых гипотез к дорогим. Значит сначала метрики и профилирование, потом selective disable, затем уже переписывание.

Снимите breakdown latency по этапам запроса: API, БД, retrieval, ranking, serialization.
На короткое окно выключите персонализацию feature-flag'ом и сравните P95/P99.
Проверьте cache hit rate до и после релиза.
Посмотрите, не выросло ли число SQL-запросов на один request.
Сравните размер payload и время сериализации ответа.
Только если узкое место внутри ranking/recommendation, профилируйте саму модель и candidate generation.

Вывод для разработчика

QwQ-32B имеет смысл не тогда, когда вам просто нужен «ещё один чат», а когда нужен свой reasoning-слой: self-hosted, открытый, контролируемый и достаточно сильный, чтобы реально конкурировать с DeepSeek-R1 на части задач. Если же приоритет — не контроль, а максимум качества и готовая экосистема, о3 всё ещё проще и сильнее как продукт.

Проверьте себя

1. Почему QwQ-32B называют важной open-weight reasoning-моделью?

Потому что это самая маленькая reasoning-модель, которая запускается на CPU без компромиссов Потому что она по ряду официальных бенчмарков близка к DeepSeek-R1, оставаясь заметно компактнее Потому что она полностью заменяет o3 по качеству, tool use и multimodal-возможностям

2. В каком сценарии QwQ-32B обычно рациональнее o3?

Когда нужны открытые веса, self-hosting и контроль над deployment-стеком Когда нужен самый зрелый managed API с vision и tool use Когда важна только минимальная цена managed reasoning API

3. Какую практику Qwen рекомендует для корректного запуска QwQ-32B?

Запускать greedy decoding с temperature=0 и хранить блок <think> в истории диалога Использовать chat template, sampling и не возвращать thinking-блок в историю диалога Всегда отключать длинный контекст и YaRN, чтобы не менять поведение модели

Связанные темы

QwQ vs DeepSeek-R1 vs o3 — выбор модели по бюджету и инфраструктуре
DeepSeek-R1 — большая open-source reasoning-модель и distill-линейка
o3 и o4-mini — закрытые reasoning-модели OpenAI и reasoning_effort
Reasoning-модели в продакшене — practical routing между API и self-hosting

Источники

QwQ vs DeepSeek-R1 vs o3: как выбрать reasoning-модель под бюджет и инфраструктуру

o3 и o4-mini