System 2 Attention, или S2A, — это двухшаговый паттерн: сначала отделить полезные факты от шума, opinions и biasing cues, а потом отвечать уже на очищенном входе. В 2026 эту технику удобно понимать как lightweight preprocessing для случаев, где проблема не в reasoning-способностях модели, а в том, что вход перегружен мусором или подталкивает к поспешному выводу.
Иногда модель ошибается не потому, что "не умеет думать", а потому, что ей дали слишком шумный или эмоционально окрашенный ввод.
Шаг 1: выдели только факты из запроса.
Шаг 2: ответь только по выделенным фактам.
Запрос: «Я уже неделю злой из-за вашего сервиса. Возможно, проблема вообще не в вас, но после обновления отчёты стали грузиться по 40 секунд, и команда не может работать как раньше»
Ответ модели
Факты: после обновления отчёты грузятся ~40 секунд; команда работает медленнее.
Ответ: стоит проверить регрессию производительности после последнего релиза, профилировать тяжёлые запросы и сравнить latency до/после обновления.
Эта техника сильнее всего не как "ещё один reasoning trick", а как фильтр перед основным route. Она особенно полезна, когда downstream модель в целом компетентна, но входные данные мешают ей проявить это:
эмоциональный шум давит на тон ответа;
нерелевантные детали забивают рабочую память;
user framing подталкивает к поспешному выводу;
factual core размазан по жалобе или длинному треду.
В таких случаях S2A улучшает не reasoning-механику модели, а качество входа, на котором эта механика будет работать.
Менее полезна техника:
на уже clean structured inputs;
в JSON-only automation;
там, где upstream already does strong extraction;
на коротких ясных вопросах.
То есть S2A особенно полезен на human-written noisy input и заметно менее полезен на machine-prepared structured state.
модель не так легко уходит в эмоциональную окраску;
facts отделяются от interpretation;
ответ становится более operational.
Главный риск:
preprocessing может случайно вырезать именно ту деталь, которая была критична.
Поэтому S2A нельзя внедрять без проверки на information loss.
Если используете S2A, полезно просить модель возвращать не только cleaned input, но и список отброшенных элементов. Так легче понять, не потеряли ли вы что-то важное.
Плохой вариант S2A — считать, что любое эмоциональное или длинное описание надо aggressively чистить. Иногда эмоция сама по себе является полезным сигналом, например для severity или user urgency.
Ещё типичные ошибки:
стирать все contextual hints;
смешивать factual rewrite и final answer в один абзац;