Agent Incident Response в 2026: как останавливать плохие run-ы до того, как они станут outage

Agent incident response в 2026: kill switches, severity, trace triage, rollback, containment и postmortem для agentic workflows.

Agent incident response в 2026 отличается от обычного backend incident response тем, что проблема часто живёт не в одном error code, а в поведении траектории. Система может технически быть "зелёной", но уже делать лишние tool calls, обходить intended policy, уходить в endless loop, генерировать bad drafts, silently терять citations или слишком уверенно действовать в uncertain case. Поэтому для агентных систем нужна отдельная incident discipline: что считать инцидентом, как быстро остановить run-ы и как восстановить сервис без повторения того же паттерна.

Главная мысль простая: если у вас есть agent workflows, у вас должен быть и runbook для containment, а не только общий on-call.

Инцидент у агента не всегда выглядит как падение сервера. Иногда сервис продолжает отвечать, но делает это опасно или системно неправильно. Поэтому incident response должен уметь ловить и поведенческие сбои, а не только технические.

Самый опасный anti-pattern - реагировать на агентный инцидент только через "подкрутим промпт и посмотрим". Без containment, kill switch и evidence collection проблема легко повторяется ещё до того, как команда поняла root cause.

1. Что считать агентным инцидентом

Полезно выделять не только infra-падения, но и behavioral incidents:

unexpected tool burst;
duplicate side effects;
drastic schema invalid spike;
wrong-policy automation;
unsafe browser/computer-use behavior;
sudden rise in human overrides;
degraded citation or grounding on critical lane.

Это важно, потому что агент может проходить технические health checks и всё равно вести себя как сломанная система.

2. Containment важнее root cause в первые минуты

Первый вопрос on-call должен быть не "почему так получилось?", а:

как быстро уменьшить текущий риск?

Типичные containment actions:

отключить конкретный tool;
перевести lane в propose-only mode;
включить forced human approval;
сузить routing;
остановить browser/computer-use run-ы;
включить queue-only service.

Именно это уменьшает blast radius до того, как команда разобралась в деталях.

Kill switch полезнее делать не один глобальный, а набор точечных: по tool, route, tenant, workflow step и model lane. Тогда containment меньше ломает остальной сервис.