Review Escalation Thresholds в 2026: когда кейс уже пора отправлять человеку, а не дожимать агентом

Review escalation thresholds в 2026: как задавать пороги для human review, чтобы агент не эскалировал всё подряд, но и не тянул risky кейсы слишком долго внутри automation.

Review escalation thresholds в 2026 нужны потому, что human review ломается в обе стороны. Если порог слишком низкий, очередь забивается слабыми кейсами, которые агент ещё мог бы дообогатить или безопасно закрыть сам. Если порог слишком высокий, risky cases слишком долго живут внутри automation и доходят до человека уже поздно или в испорченном виде. Поэтому review threshold должен быть не интуицией команды, а явной operational границей.

Escalation threshold — это условие, при котором кейс перестаёт обрабатываться автоматически и переходит в human review или другой контролируемый path.

Самый вредный anti-pattern - строить escalation только по одному confidence score. Для реального review threshold обычно важнее risk, evidence quality, authority и degraded state.

1. Threshold должен смотреть на тип решения

Например:

low-risk informational answer;
customer-visible message;
refund or money movement;
policy exception;
cross-tenant action.

У этих классов разная tolerance к автоматизации.

2. Evidence threshold и review threshold не одно и то же

Полезно различать:

нужно ли ещё дообогащать packet;
уже пора передавать человеку;
кейс надо вообще блокировать.

Это лучше, чем один грубый switch между auto и review.

Если команда не может отдельно ответить на вопросы "кейс недостаточно готов" и "кейс слишком рискованный для авто-решения", thresholds почти наверняка смешаны.

3. Threshold должен учитывать degraded mode

Даже обычно безопасный flow может требовать review, если:

tool confirmation unavailable;
retrieval degraded;
citations слабые;
approval path частично недоступен;
routing ушёл в fallback model tier.

Threshold без учёта degraded state быстро становится слепым.

4. Threshold должен быть калибруемым

Полезно анализировать:

under-escalation incidents;
over-escalation backlog;
decision reversals;
manual completion rate after review;
false-positive review triggers.

Так threshold можно настраивать по реальным потерям, а не по вкусу команды.

escalation rate by action class;
over-escalation rate;
under-escalation incidents;
reversal rate after auto-action;
review queue load by trigger type;
percent of escalated cases missing evidence minimum.

Плюсы

Thresholds делают review более предсказуемым
Помогают балансировать cost of review и cost of error
Снижают шум в очереди
Улучшают связку между risk policy и routing

Минусы

Нужно калибровать thresholds по реальным данным
Часть кейсов всё равно остаётся на границе
Слишком жёсткий порог может переэскалировать
Слишком мягкий порог приводит к under-review

Источники

Review Decision Codes в 2026: как кодировать решения reviewer-а так, чтобы review был полезен не только сейчас, но и для системы

Review Evidence Minimums в 2026: какой минимум доказательств нужен человеку перед risky decision

Review Escalation Thresholds в 2026: когда кейс уже пора отправлять человеку, а не дожимать агентом

Короткая версия

Что особенно важно

1. Threshold должен смотреть на тип решения

2. Evidence threshold и review threshold не одно и то же

3. Threshold должен учитывать degraded mode

4. Threshold должен быть калибруемым

5. Что особенно часто ломают команды

One threshold for everything

Confidence-only escalation

Review used instead of enrichment

Threshold hidden in prompt folklore

No recalibration

6. Какие метрики полезны

Плюсы

Минусы

Пример threshold policy

Простой gate

Источники