QwQ-32B — открытая reasoning-модель Qwen на 32.5B параметров. Разбираем, где она сильнее DeepSeek-R1 и почему она не заменяет o3.
QwQ-32B — reasoning-модель от Qwen Team с открытыми весами и лицензией Apache 2.0. По официальному model card это модель на 32.5B параметров с контекстом 131 072 токена, обученная через post-training с reinforcement learning. Практический смысл QwQ в том, что она подводит open-source reasoning к уровню DeepSeek-R1, но делает это в гораздо более компактном размере.
Главный вопрос про QwQ не в том, «обгоняет ли она всех», а в том, насколько близко она подходит к закрытым и тяжёлым reasoning-моделям. По официальному бенчмарк-чарту Qwen модель почти вровень с DeepSeek-R1 на AIME24 (79.5 vs 79.8), уступает на LiveCodeBench (63.4 vs 65.9), но обходит R1 на LiveBench (73.1 vs 71.6) и BFCL (66.4 vs 60.3). Это делает QwQ очень сильной ставкой для тех, кому нужны открытые веса, а не только API.
QwQ-32B лучше воспринимать не как «убийцу o3», а как очень сильную открытую reasoning-модель среднего размера. o3 остаётся премиальным закрытым вариантом с лучшей экосистемой инструментов и визуальным reasoning, а QwQ — это способ получить глубокие рассуждения без привязки к одному API-провайдеру.
QwQ-32B — одна из самых интересных reasoning-моделей в open-source на 16 марта 2026. Она заметно компактнее DeepSeek-R1, но по официальным метрикам Qwen держится рядом с ним на сложных задачах. С o3 сравнение другое: не по открытости, а по потолку качества и продуктовой зрелости.
Модель
Статус
Размер / доступ
Что главное
QwQ-32B
Open weights, Apache 2.0
32.5B, self-hosting / providers
Лучший баланс между открытостью и сильным reasoning
DeepSeek-R1
Open weights, MIT
671B MoE, 37B active
Сильнее как «большая открытая reasoning-модель» и богаче по экосистеме
Нужны открытые веса и разумный размер модели → QwQ-32B
Нужен максимум из open-source и вас не пугает тяжёлый стек → DeepSeek-R1
Нужен лучший закрытый reasoning с tool use и visual reasoning → o3
По состоянию на 16 марта 2026 у Alibaba Cloud Model Studio reasoning-модель в managed API называется qwq-plus и стоит $0.80 / $2.40 за 1M input/output токенов. Это не то же самое, что открытая weight-модель QwQ-32B. Из источников следует только то, что это одна семья моделей; тождественность весов я здесь не утверждаю.
Практический вывод простой: если вы хотите reasoning-модель для собственной инфраструктуры, QwQ часто выглядит рациональнее. Если вы готовы платить инфраструктурной сложностью ради верхней границы качества в open-source, DeepSeek-R1 остаётся более тяжёлой, но логичной альтернативой.
По официальной странице Models & Pricing, на 16 марта 2026 модель deepseek-reasoner в API соответствует уже DeepSeek-V3.2 (Thinking Mode), а не исходному APP/WEB-варианту R1. При этом на странице релиза R1 от 20 января 2025 до сих пор указаны старые цены $0.55 / $2.19, тогда как текущая pricing-страница показывает $0.28 / $0.42 для deepseek-reasoner. Для продакшена ориентироваться нужно на текущую pricing-страницу, а не на старый release post.
С o3 сравнение другое. OpenAI описывает o3 как свою самую мощную reasoning-модель, которая ставит новый SOTA на Codeforces, SWE-bench и MMMU, а также умеет reasoning с изображениями и полноценный tool use в API/ChatGPT. По сути, o3 — это не просто модель весов, а готовый продуктовый слой поверх reasoning.
У QwQ-32B другой профиль:
открытые веса вместо managed-only API;
меньше размер и больше контроль над развёртыванием;
нет такой же нативной продуктовой экосистемы инструментов, как у o3;
нет такой же явной ставки на multimodal + agentic tool use.
Поэтому QwQ стоит сравнивать с o3 не вопросом «кто умнее вообще», а вопросом «что вы хотите купить или развернуть».
Без техники
{
"title": "Неправильное ожидание",
"content": "QwQ-32B заменит o3 во всех сценариях, потому что она открытая и почти догоняет DeepSeek-R1."
}
С техникой
{
"title": "Более точное ожидание",
"content": "QwQ-32B — сильная открытая reasoning-модель для self-hosting и кастомных стеков. o3 — премиальный закрытый выбор, когда важнее максимум качества, native tools, vision и готовая API-экосистема."
}
Если вы строите агентный пайплайн, QwQ удобно ставить как:
planner / analyst для сложных шагов;
reviewer для кода и reasoning-heavy ответов;
fallback к более дешёвой модели для рутинных задач.
Такой каскад обычно выгоднее, чем пускать каждую задачу на большую reasoning-модель.
ПромптQwQ-32B
У меня есть сервис на Python. P95 latency выросла с 220ms до 780ms после добавления персонализированных рекомендаций. Дай план диагностики так, чтобы сначала исключить самые дешёвые гипотезы.
Ответ модели
Нужно не сразу винить Python или модель рекомендаций. Сначала разделю проблему по слоям: приложение, БД, сеть, внешние вызовы, кэш, модель рекомендаций. Пользователь просит порядок от самых дешёвых гипотез к дорогим. Значит сначала метрики и профилирование, потом selective disable, затем уже переписывание.
QwQ-32B имеет смысл не тогда, когда вам просто нужен «ещё один чат», а когда нужен свой reasoning-слой: self-hosted, открытый, контролируемый и достаточно сильный, чтобы реально конкурировать с DeepSeek-R1 на части задач. Если же приоритет — не контроль, а максимум качества и готовая экосистема, о3 всё ещё проще и сильнее как продукт.