CRITIC — это паттерн, в котором модель не пытается исправить себя "изнутри" на голом тексте, а использует инструменты для критики собственного ответа. Она может вызвать search, кодовый интерпретатор, калькулятор или другой внешний источник проверки, получить сигнал о проблеме и только потом переписать результат.

В 2026 это один из самых практичных verification-подходов, потому что он отражает реальную инженерную среду: сильные LLM-приложения почти никогда не живут в полной изоляции. Если ответ можно проверить через внешний инструмент, лучше сделать это, чем просить модель просто "подумать ещё раз".

Хорошая критика должна опираться не только на внутреннюю интуицию модели, но и на внешний сигнал: поиск, вычисление, проверку схемы, результат функции или tool output.

Коротко

CRITIC — это цикл:

  1. сгенерировать ответ;
  2. найти его слабое место;
  3. проверить его через tool;
  4. переписать ответ с учётом результата проверки.
ПромптClaude Sonnet 4.6
Сначала дай ответ на вопрос. Потом примени CRITIC: проверь ключевое утверждение через web search или calculator tool и исправь ответ, если надо.

Вопрос: во сколько обойдётся подписка на 12 месяцев по 1 990 руб. в месяц со скидкой 15%?
Ответ модели

Черновик: 20 298 руб.

CRITIC-проверка:

  • calculator: 1 990 x 12 = 23 880
  • скидка 15% = 3 582
  • итог = 20 298

Итоговый ответ подтверждён: 20 298 руб.

Если задача допускает внешний тест, CRITIC почти всегда сильнее чисто текстовой self-correction.

Почему техника работает

У многих self-correction-подходов одна и та же слабость: модель критикует себя тем же интеллектом, который только что ошибся. Иногда это помогает, но часто нет. CRITIC усиливает критику за счёт внешнего сигнала.

Это меняет механику:

  • модель не просто "размышляет ещё раз";
  • она сталкивается с независимой проверкой;
  • после этого revision становится более grounded.

Именно поэтому техника полезна не только для factual QA, но и для вычислений, code generation, policy checking и structured outputs.

Где CRITIC особенно полезен

Подход хорошо работает, когда есть доступный инструмент проверки:

  • search для factual claims;
  • calculator или Python для чисел;
  • schema validator для JSON;
  • SQL runner для запросов;
  • unit tests для кода;
  • policy engine для правил.

Это делает технику очень "продуктовой". Она легко ложится на современные agent runtimes и verification-pipelines.

Только self-reflection
Модель пытается сама догадаться, где ошиблась, но не имеет внешнего опорного сигнала и может рационализировать ошибку.
CRITIC
Модель получает feedback от инструмента и исправляет ответ уже на основе проверенного сигнала, а не только внутренней интуиции.

Как выглядит хороший цикл

Где техника переоценена

CRITIC не значит "подключите любой tool и всё станет надёжным".

  • Если tool слабый, noisy или сам ненадёжен, verification мало что даст.
  • Если модель проверяет не тот claim, она может усиленно валидировать второстепенную деталь и пропустить главную ошибку.
  • Если revision-подсказка слишком свободная, модель снова начнёт галлюцинировать поверх корректного tool output.

То есть сила CRITIC не просто в tool-use, а в узком и дисциплинированном контуре критики.

Когда CRITIC действительно даёт новый сигнал

Техника особенно сильна не там, где tool просто подтверждает очевидное, а там, где без внешней проверки модель склонна уверенно ошибаться:

  • арифметика и unit conversion;
  • claims о product features и policy rules;
  • SQL, code и structured outputs, которые можно прогнать через validator;
  • аналитические выводы, где можно проверить одну ключевую предпосылку.

Если tool-check ничего не меняет в решении или постоянно проверяет второстепенные детали, CRITIC становится декоративным слоем, а не реальной защитой от ошибок.

Как понимать технику в 2026

Сегодня CRITIC полезно видеть как bridge между prompting и agent engineering. Это уже не просто prompt trick, а архитектурный паттерн:

  • answer generation;
  • risk localization;
  • external verification;
  • controlled rewrite.

Во многих практических системах именно такой контур даёт наилучшее соотношение качества и стоимости. Он дешевле полного multi-agent review и надёжнее простой команды "перепроверь себя".

Когда её стоит добавлять

Техника особенно оправдана, если:

  • у ответа высокая цена ошибки;
  • проверка конкретного claim дешёвая;
  • есть понятные tools;
  • нужно сохранить original draft, но снизить hallucination rate.

Хорошие примеры: финансовые расчёты, product facts, pricing pages, ответы по policy, технические summary с обязательной атрибуцией.

Слабый сценарий для CRITIC: когда у задачи нет дешёвого и точного external oracle. В таком случае вы добавляете orchestration cost, но не получаете по-настоящему независимого verification signal.

Техническая реализация

const draft = await model(`Ответь на вопрос:\n${task}`)

const critiquePlan = await model(`
Выдели 1-3 наиболее рискованных утверждения в ответе ниже и скажи, какой tool лучше их проверить.

${draft}
`)

// tool execution
// targeted revision

Практический совет: не пускайте revision по всему ответу. Лучше передавать модели конкретный tool feedback и требовать минимальную правку только затронутых фрагментов.

Ещё полезно логировать, какой critique target был выбран и поменял ли tool feedback итоговый ответ. Иначе трудно понять, CRITIC реально ловит ошибки или просто стабильно подтверждает уже хороший draft.

Проверьте себя

1. Что делает CRITIC сильнее обычной self-correction?

2. Когда CRITIC особенно уместен?

3. Какой anti-pattern здесь опасен?