Degraded Mode Exit Criteria в 2026: когда систему можно считать вышедшей из ослабленного режима

Degraded mode exit criteria в 2026: как задавать явные условия выхода из degraded mode, чтобы продукт не оставался в полубольном состоянии дольше нужного и не выходил из него слишком рано.

Degraded mode exit criteria в 2026 нужны потому, что для многих систем войти в degraded mode проще, чем выйти из него правильно. Tool path снова отвечает, latency вроде нормализовалась, часть alerts погасла, и команда спешит вернуть normal routing. Но если evidence quality, approval integrity, retrieval health или fallback rates ещё не восстановились, ранний выход только создаёт новую волну проблем. Обратная крайность тоже вредна: система остаётся в ограниченном режиме дольше, чем нужно, и тратит лишний человеческий ресурс.

Exit criteria — это явные условия, при которых продукт можно безопасно перевести из degraded mode обратно в normal mode.

Самый вредный anti-pattern - выходить из degraded mode по одному сигналу вроде "сервис снова отвечает". Для реального recovery обычно нужно несколько подтверждений сразу.

1. Exit criteria должны смотреть на качество, а не только на uptime

Полезно проверять:

tool confirmation health;
retrieval evidence quality;
fallback auto-show rate;
approval integrity;
error and latency stability.

Так команда не путает partial recovery с full recovery.

2. Risky flows лучше проверять отдельно

Например:

money movement;
customer-visible actions;
policy exceptions;
sensitive tenant workflows;
manual-review bypass paths.

Они не должны автоматически считаться восстановленными вместе со всем остальным.

Если degraded mode вводился из-за риска для конкретного action class, выход из него должен подтверждаться именно на этом action class, а не только на общей метрике сервиса.

3. Нужен stability window

Полезно задавать:

minimum healthy duration;
max fallback rate during window;
max unresolved alerts;
max manual override usage;
no new high-risk incidents.

Без этого система может "выйти" из degraded mode на коротком колебании.

4. Exit должен быть route-aware

Часть путей может вернуться раньше:

low-risk informational flows;
read-only tools;
non-customer-visible features.

А часть позже:

auto-actions;
approval-sensitive paths;
high-trust retrieval flows.

Это лучше, чем общий toggle для всего продукта.

time spent in degraded mode;
false exits followed by re-entry;
stability-window pass rate;
fallback rate before and after exit;
risky-flow incidents after exit;
percent of paths recovered progressively instead of globally.

Плюсы

Exit criteria делают recovery управляемым, а не интуитивным
Снижают риск раннего возврата в unsafe normal mode
Помогают восстанавливать продукт по risk-aware стадиям
Связывают operational health с реальным quality state

Минусы

Нужно поддерживать дополнительные recovery checks
Чрезмерно строгие criteria могут затягивать degraded mode
Разные пути требуют разной логики выхода
Без observability трудно честно доказать recovery

Источники

Degraded Mode Disclosures в 2026: как честно сообщать пользователю, что система работает в ослабленном режиме

Degraded Mode Risk Budgets в 2026: сколько ослабления системы ещё допустимо, прежде чем нужно ужесточать режим

Degraded Mode Exit Criteria в 2026: когда систему можно считать вышедшей из ослабленного режима

Короткая версия

Что особенно важно

1. Exit criteria должны смотреть на качество, а не только на uptime

2. Risky flows лучше проверять отдельно

3. Нужен stability window

4. Exit должен быть route-aware

5. Что особенно часто ломают команды

Exit on availability only

No stability window

One global exit for all paths

No explicit approver

No rollback-on-regression

6. Какие метрики полезны

Плюсы

Минусы

Пример exit criteria

Простой exit gate

Источники