Quiet-STaR в 2026: training-time inner-monologue concept, где модель учится генерировать скрытые rationales перед токенами и улучшать prediction quality без явного prompting.
Quiet-STaR (Quiet Self-Taught Reasoner) — метод обучения, при котором модель генерирует скрытые внутренние rationales перед токенами, не требуя специального промпта. В 2026 это полезнее понимать как training-time inner-monologue concept: техника объясняет, как модель может "думать перед ответом" без длинного visible trace и почему reasoning behaviour можно развивать не только через prompting, но и через саму процедуру обучения.
Когда вы отвечаете на сложный вопрос, вы не сразу выдаёте ответ — сначала думаете про себя. Этот «внутренний голос» помогает вам сформулировать мысль, прежде чем произнести её. Quiet-STaR учит модель делать то же самое: перед каждым словом модель мысленно «проговаривает» рассуждение, которое помогает предсказать, что сказать дальше. Ключевое слово — «quiet» (тихо): мысли остаются внутри, пользователь видит только итоговый ответ.
Обычные модели генерируют текст токен за токеном, не «думая» между словами. Если мы хотим, чтобы модель рассуждала, нужно явно попросить: «Думай шаг за шагом» (Chain of Thought). Но это неестественно — люди думают перед каждым высказыванием автоматически, без инструкций.
STaR (Self-Taught Reasoner) — предшественник Quiet-STaR — решал часть проблемы: модель обучалась на собственных рассуждениях, но только для конкретных задач с правильными ответами (вопрос-ответ, математика).
Quiet-STaR делает следующий шаг: модель учится генерировать скрытые «мысли» (rationales) на каждой позиции в тексте. Не только при решении задач, а вообще всегда — при любом продолжении текста. Мысль помогает предсказать следующий токен точнее, и модель обучается усиливать полезные мысли и ослаблять бесполезные.
Аналогия: обычная модель — это человек, который говорит «на автомате», не задумываясь. Quiet-STaR — это человек с внутренним монологом, который обдумывает каждую фразу прежде чем произнести.
Обычная модель
Текст: «Столица Франции — ...»
Модель сразу предсказывает: «Париж»
Нет внутренних рассуждений.
Ответ на основе статистических паттернов.
Нет «обдумывания» — работает на автомате.
Quiet-STaR
Текст: «Столица Франции — ...»
<|startofthought|> Франция — страна в Европе, столица — крупнейший город... <|endofthought|>
Модель предсказывает: «Париж»
Модель «подумала» перед ответом.
Мысль помогла уточнить предсказание.
Но пользователь видит только «Париж».
Ключевая идея: Chain of Thought требует, чтобы человек написал «Думай шаг за шагом». Quiet-STaR встраивает мышление в саму модель — мышление происходит автоматически, без инструкций.
Quiet-STaR — это не техника промптинга, которую вы применяете к готовой модели. Это метод обучения моделей, который меняет сам способ генерации текста. Но понимание этой идеи помогает разобраться, как работают современные «думающие» модели (o3, DeepSeek-R1, Claude с extended thinking) и как эмулировать похожее поведение через промпты.
Ключевое наблюдение: модель не обучалась на математических задачах. Она обучалась на обычном тексте (OpenWebMath), но научилась думать — и это мышление перенеслось на математику и здравый смысл. Это доказывает, что «внутренний монолог» — общий навык, а не специфический для задачи.
Quiet-STaR — одна из ранних идей, стоящих за «думающими» моделями 2024-2025: OpenAI o1/o3/o4-mini, DeepSeek-R1, Claude с extended thinking. Все они используют вариации скрытого или явного «внутреннего мышления» перед выдачей ответа. Quiet-STaR показал, что сам принцип «подумать перед ответом» можно обучить, а не только промптить.
Quiet-STaR — это исследовательский метод, который пока не доступен как готовый инструмент. Однако его идея лежит в основе:
Reasoning-моделей (o3, o4-mini, DeepSeek-R1): используют скрытые или видимые «цепочки мышления» перед ответом
Extended thinking в Claude: модель «размышляет» перед ответом, показывая процесс
Thinking tokens в будущих архитектурах: идея выделенных «мыслительных» токенов набирает популярность
Quiet-STaR — это не техника, которую вы применяете к ChatGPT или Claude через промпт. Это метод обучения, который меняет саму модель. Однако вы можете эмулировать похожее поведение через промпты — об этом в секции «Для разработчика».
Понимание Quiet-STaR полезно, когда вы выбираете между:
fast compact models;
explicit reasoning modes;
скрытым reasoning в hosted reasoning models.
Если системе нужны explainability, audit trail и reviewable traces, hidden thinking alone недостаточно. Если же критичны latency, cost и простота UX, скрытое reasoning может быть предпочтительнее длинного visible CoT.
Meta-tokens. В словарь модели добавляются два специальных токена:
<|startofthought|> — начало мысли
<|endofthought|> — конец мысли
Эти токены обучаются вместе с моделью. Их эмбеддинги инициализируются из эмбеддингов ближайших по смыслу токенов (em-dash — для start, конец предложения для end).
Mixing head. После генерации мысли модель делает два предсказания следующего токена:
p_talk(x_{i+1}) — предсказание с учётом мысли
p_base(x_{i+1}) — предсказание без мысли (как обычная модель)
Итоговая вероятность — взвешенная комбинация:
p_final = w * p_talk + (1 - w) * p_base
где w — обучаемый параметр (mixing weight). В начале обучения w ≈ 0 (модель доверяет базовому предсказанию), постепенно w растёт для позиций, где мысли помогают.
Параллельная генерация мыслей. Наивная реализация генерировала бы мысли последовательно для каждой позиции — это невозможно медленно. Авторы предложили параллельную генерацию: мысли для всех позиций генерируются одновременно через модифицированную attention mask.
Хотя Quiet-STaR — метод обучения, его идею можно частично эмулировать через промптинг. Суть: попросить модель «подумать про себя» перед каждым утверждением.
ПромптClaude Sonnet 4
Перед каждым утверждением в своём ответе сначала запиши краткую мысль в формате [мысль: ...], затем само утверждение. Мысль — это то, что ты обдумываешь перед тем, как написать фразу.
Вопрос: Почему замороженная вода занимает больше объёма, чем жидкая?
Ответ модели
[мысль: вопрос о свойствах воды при замерзании — нужно объяснить аномалию расширения]
Вода — одно из немногих веществ, которые расширяются при замерзании.
[мысль: нужно объяснить через молекулярную структуру, но доступно]
В жидком состоянии молекулы воды расположены хаотично и сравнительно плотно. При замерзании они выстраиваются в кристаллическую решётку — гексагональную структуру с пустотами.
[мысль: аналогия поможет — решётка как каркас с промежутками]
Представьте: если высыпать горсть шариков в коробку, они займут мало места. Но если аккуратно разложить их в форме сетки с промежутками — займут гораздо больше. Молекулы воды при замерзании делают именно это.
[мысль: стоит упомянуть водородные связи как причину]
Причина — водородные связи (hydrogen bonds) между молекулами H₂O. При охлаждении эти связи фиксируют молекулы в открытой решётке, где расстояние между ними больше, чем в жидкости. Результат: лёд на ~9% менее плотный, чем вода, поэтому он плавает.
Эмуляция Quiet-STaR через промпт полезна для задач, где важна взвешенность каждого утверждения: экспертные заключения, юридические тексты, медицинские рекомендации. Модель «проговаривает» свои соображения перед каждым тезисом, что снижает вероятность галлюцинаций.
from openai import OpenAI
client = OpenAI()
QUIET_STAR_SYSTEM = """Ты — модель с внутренним монологом.
Правила:
1. Перед каждым абзацем своего ответа напиши
скрытую мысль в формате:
<thought>краткое рассуждение</thought>
2. Мысль содержит: что ты знаешь по теме,
какие есть нюансы, что может быть ошибкой
3. Затем напиши сам абзац, учитывая обдуманное
4. Мысли должны быть краткими (1-2 предложения)
5. Если не уверен — отметь это в мысли"""
def quiet_star_emulation(question: str) -> str:
"""Эмуляция Quiet-STaR через system prompt."""
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{
"role": "system",
"content": QUIET_STAR_SYSTEM,
},
{
"role": "user",
"content": question,
},
],
temperature=0.3,
)
return response.choices[0].message.content
# Вариант с фильтрацией мыслей для конечного
# пользователя
def quiet_star_filtered(question: str) -> str:
"""
Quiet-STaR эмуляция: модель думает,
но пользователь видит только чистый ответ.
"""
import re
raw = quiet_star_emulation(question)
# Убираем теги <thought>...</thought>
clean = re.sub(
r"<thought>.*?</thought>\s*",
"",
raw,
flags=re.DOTALL,
)
return clean.strip()
answer = quiet_star_emulation(
"Почему при обучении нейросетей "
"используют dropout, а не просто "
"уменьшают число нейронов?"
)
print(answer)
Quiet-STaR можно рассматривать как теоретическое обоснование подхода «думающих» моделей:
Модель
Тип мышления
Видимость
Связь с Quiet-STaR
o3, o4-mini
Скрытые reasoning-токены
Частично (summary)
Прямое развитие идеи
DeepSeek-R1
Явная <think> цепочка
Полная
Видимый вариант Quiet-STaR
Claude (extended thinking)
Thinking block
Полная
Видимый вариант Quiet-STaR
Quiet-STaR
Скрытые rationales
Нет (quiet)
Оригинальная идея
Все эти подходы объединяет одна идея: модель должна думать перед тем, как говорить. Quiet-STaR первым показал, что этот навык можно обучить на произвольном тексте, а не только на размеченных задачах.