Implicit CoT в 2026: training/runtime concept, где reasoning интернализируется в модель и не выводится как явная цепочка токенов.
Implicit Chain-of-Thought (неявная цепочка рассуждений) — подход, при котором модель обучается «думать» внутри своих скрытых представлений, не генерируя промежуточные токены рассуждений. В 2026 его полезно понимать не как prompt trick, а как model/runtime property: reasoning остаётся внутри модели и не становится видимой цепочкой, которую можно прочитать, отладить или отранжировать как обычный CoT trace.
Представьте опытного водителя. Новичок проговаривает каждый шаг: «посмотрю в зеркало, включу поворотник, поверну руль, проверю слепую зону...» Опытный водитель делает всё то же самое, но автоматически — не проговаривая вслух. Implicit CoT работает так же: модель обучается на развёрнутых рассуждениях, а затем «сворачивает» их внутрь, отвечая коротко, но с тем же качеством мышления.
Стандартный Chain of Thought просит модель рассуждать вслух — и это работает, но стоит токенов, времени и денег. Каждый промежуточный шаг — это сгенерированные токены, за которые вы платите.
Implicit CoT предлагает другой путь: обучить модель так, чтобы она рассуждала внутри своих скрытых представлений (hidden states), не генерируя текст промежуточных шагов. Модель «думает» — но молча.
Задача: 23 × 17 = ?
Ответ: 391
→ 5 токенов, ~0.05 сек
(рассуждение произошло внутри модели)
Ключевое различие:
Explicit CoT — рассуждения записываются в виде текста. Прозрачно, но дорого.
Implicit CoT — рассуждения «закодированы» в скрытых слоях модели. Быстро и дёшево, но непрозрачно.
На типичных задачах Implicit CoT даёт ускорение в 5-10 раз и сокращение стоимости в 5-10 раз при сопоставимом качестве на простых и средних задачах. На сложных multi-step задачах точность может снижаться на 10-20%.
ПромптClaude
Ты — модель, обученная методом Implicit CoT. Отвечай сразу, без промежуточных шагов.
Задача: В магазине яблоки стоят 85 руб./кг, груши — 120 руб./кг. Мария купила 2 кг яблок и 1.5 кг груш. Сколько она заплатила?
Chain of Thought — одна из самых эффективных техник промптинга. Но у неё есть цена:
Среднее количество выходных токенов на задачу
Explicit CoT100%
Chain of Draft15%
Implicit CoT8%
Direct answer5%
Для одного запроса разница несущественна. Но при 100 000 запросов в день explicit CoT генерирует 10 млн лишних токенов — это сотни долларов в день только на рассуждения.
Большая модель-учитель (например, GPT-4) генерирует развёрнутые CoT-рассуждения. Компактная модель-ученик обучается воспроизводить только ответы, но её скрытые представления настраиваются так, чтобы имитировать внутренние состояния учителя.
На датасете GSM8K (арифметические задачи из школьной программы):
Метод
Точность
Выходных токенов
Explicit CoT
85%
~90
Chain of Draft
82%
~12
Implicit CoT
77%
~5
Direct (без CoT)
58%
~5
Implicit CoT сохраняет ~90% точности explicit CoT при x18 меньшем количестве выходных токенов. При этом значительно превосходит прямой ответ без рассуждений (+19 п.п.).
Эта техника важна прежде всего как объяснение того, почему современные reasoning-модели могут отвечать коротко, но всё равно выглядеть "думающими". Она хорошо дополняет картину:
explicit CoT даёт видимый trace;
implicit CoT прячет reasoning в hidden states;
practical systems часто балансируют между ними через visible vs hidden thinking modes.
Для разработчика это означает простую вещь: если вам нужны auditability, judgeability и human review, implicit reasoning сам по себе не решает задачу. Он хорош там, где важнее latency и economics, чем прозрачность.
Непосредственно внедрить Implicit CoT как пользователь готовой API-модели обычно нельзя. Но practical lessons от техники понятны:
не всегда нужен длинный visible CoT;
reasoning quality можно частично получать без длинного текстового trace;
на high-volume flows стоит сравнивать explicit reasoning route и compact route по цене и качеству.
Иначе говоря, статья полезна не как инструкция "сделай вот такой prompt", а как mental model для routing между cheap/fast answers и explainable answers.
Модель генерирует «мысли» параллельно, но не показывает
Внутри
Отсутствует
Quiet-STaR (Zelikman et al., 2024) — техника, при которой модель учится генерировать внутренние «мысли» (rationale tokens) перед каждым реальным токеном. Мысли не выводятся пользователю, но влияют на генерацию. В отличие от Implicit CoT, Quiet-STaR не требует CoT-датасетов — модель учится думать самостоятельно через reinforcement learning.
Если fine-tuning недоступен, можно частично имитировать Implicit CoT промптингом. Это не настоящая интернализация, но сокращает вывод:
ПромптClaude
Ты — эксперт, который отвечает сразу и точно, без промежуточных рассуждений.
Правила:
- Не показывай шаги решения
- Отвечай одним числом или одним предложением
- Подумай внутренне, но не записывай мысли
Задача: Поезд едет со скоростью 80 км/ч. Через 2.5 часа он сделал остановку на 30 минут, затем проехал ещё 1.5 часа. Какое общее расстояние он проехал?
Ответ модели
320 км
Промптинг «дай только ответ» — это не настоящий Implicit CoT. Модель может просто пропустить рассуждения и ошибиться. Настоящий Implicit CoT требует fine-tuning, где рассуждения интернализированы в веса модели. Промптинг работает как приближение только для простых задач.