STaR, или Self-Taught Reasoner, это техника, в которой модель улучшает своё reasoning-поведение, учась на собственных объяснениях. Базовый цикл выглядит так: модель генерирует rationale, проверяет, привёл ли он к правильному ответу, и затем использует удачные rationale как материал для дальнейшего обучения.
В 2026 STaR важно понимать не как "ещё один prompt", а как bridge между prompting и training loop. Это способ превратить reasoning traces в полезный сигнал для улучшения модели или task-specific системы без полной ручной разметки огромного датасета.
Идея техники очень прагматична. Обычно у команды есть:
STaR использует это так:
То есть техника строит reasoning dataset частично автоматически.
Подход окупается там, где:
Это особенно полезно для математики, rule-based QA, domain reasoning и внутренних обучающих пайплайнов.
Few-shot даёт модели несколько готовых примеров и надеется, что она обобщит паттерн.
STaR идёт дальше: он сам строит новый корпус reasoning traces и превращает его в источник улучшения. Это делает технику особенно интересной для команд, которые хотят системно повышать качество reasoning, а не только подбирать удачный prompt.
STaR не решает всё:
Отдельная опасность — учить модель на красивых, но неfaithful rationales. Поэтому quality gate на collected traces крайне важен.
Сегодня техника особенно актуальна там, где reasoning становится частью продуктового цикла: evals, prompt R&D, synthetic data, domain adaptation. Даже если команда не fine-tunes модель напрямую, сам паттерн STaR полезен как способ собирать более качественные few-shot corpora и judge traces.
Именно поэтому STaR стоит смотреть не как на старую научную идею, а как на operational pattern для данных. Он отвечает на вопрос: как из небольшого числа seed-rationales вырастить более сильный reasoning set.