Approval Bypass Prevention в 2026: как не дать агенту обойти human gate косвенным путём

Approval bypass prevention в 2026: как проектировать policy, tool graph и state transitions так, чтобы risky action не мог пройти мимо human review через обходной маршрут.

Approval bypass prevention в 2026 нужен потому, что risky action чаще обходят не прямым нарушением policy, а косвенным путём. Команда вроде бы поставила human gate на send_email или issue_refund, но рядом остались другие маршруты: draft становится auto-send, CRM update триггерит внешний webhook, browser flow коммитит действие через другой инструмент. Формально правило "approval required" существует, а practically side effect всё равно уходит без человека.

Approval bypass — это ситуация, когда действие, которое должно было пройти через человека, всё равно выполняется через другой маршрут. Не обязательно злонамеренно. Иногда это просто плохо спроектированный tool graph.

Самый вредный anti-pattern - ставить approval только на один obvious tool call и считать, что этого достаточно. В production gate должен покрывать не имя инструмента, а весь class risky outcome.

1. Approvals должны покрывать outcome, а не интерфейс

Полезно думать не в терминах:

tool_x requires approval;

а в терминах:

external communication;
money movement;
data deletion;
policy exception;
customer-visible publication.

Именно outcome определяет риск, а не конкретное имя функции.

2. Обходные пути часто прячутся в непрямых side effects

Особенно опасны:

auto-send after draft;
webhook-triggered downstream action;
browser submit через generic browser tool;
state mutation, после которой другая система коммитит действие;
chained tools, где второй шаг уже outside review boundary.

Если один risky outcome можно достигнуть более чем одним маршрутом, gate должен проверяться на уровне общего action class.

3. Approval token должен быть action-bound

Плохо:

один глобальный флаг approved=true;
reusable approval for whole session;
approval without payload hash or packet id.

Лучше:

approval packet id;
payload digest;
expiry;
allowed outcome class;
one-time use semantics.

Так approval нельзя легко переиспользовать для другого действия.

4. Gate полезно проверять в нескольких местах

Сильная схема обычно включает:

pre-execution policy check;
tool wrapper validation;
state transition validation;
audit trail after execution.

Один единственный guardrail часто оказывается слишком узким.

risky actions blocked for missing approval;
approval token reuse attempts;
side effects executed outside intended gate;
bypass findings in red-team tests;
routes mapped to each approval class;
post-incident cases caused by hidden execution path.

Плюсы

Outcome-level gating снижает риск косвенного обхода approval
Action-bound approvals лучше защищают от token reuse
Многоуровневая проверка делает human gate реальным control point
Bypass testing помогает увидеть скрытые side effects до инцидента

Минусы

Нужно поддерживать taxonomy risky outcomes и route mapping
Система становится строже и сложнее для orchestration
Legacy integrations часто содержат скрытые side effects
Без хорошего audit trail трудно доказать, где gate был обойдён

Источники

Agent Policy Exception Audits в 2026: как разбирать не только сами исключения, но и качество их обработки

Approval Fatigue Management в 2026: как не превратить human-in-the-loop в конвейер без внимания

Approval Bypass Prevention в 2026: как не дать агенту обойти human gate косвенным путём

Короткая версия

Что особенно важно

1. Approvals должны покрывать outcome, а не интерфейс

2. Обходные пути часто прячутся в непрямых side effects

3. Approval token должен быть action-bound

4. Gate полезно проверять в нескольких местах

5. Что особенно часто ломают команды

Approval on one tool only

Reusable approval state

No outcome taxonomy

Hidden automation after draft

No bypass testing

6. Какие метрики полезны

Плюсы

Минусы

Пример approval-bound action

Простой bypass check

Источники