Agent incident response в 2026 отличается от обычного backend incident response тем, что проблема часто живёт не в одном error code, а в поведении траектории. Система может технически быть "зелёной", но уже делать лишние tool calls, обходить intended policy, уходить в endless loop, генерировать bad drafts, silently терять citations или слишком уверенно действовать в uncertain case. Поэтому для агентных систем нужна отдельная incident discipline: что считать инцидентом, как быстро остановить run-ы и как восстановить сервис без повторения того же паттерна.
Главная мысль простая: если у вас есть agent workflows, у вас должен быть и runbook для containment, а не только общий on-call.
Полезно выделять не только infra-падения, но и behavioral incidents:
Это важно, потому что агент может проходить технические health checks и всё равно вести себя как сломанная система.
Первый вопрос on-call должен быть не "почему так получилось?", а:
как быстро уменьшить текущий риск?
Типичные containment actions:
Именно это уменьшает blast radius до того, как команда разобралась в деталях.
Для агентных систем root cause часто сидит в середине траектории:
Поэтому incident triage полезно строить вокруг:
Именно такой разбор показывает, где система реально ушла не туда.
Иногда быстрее и безопаснее:
Это часто даёт более быстрый recovery, чем полноценный deploy rollback.
До cleanup полезно собирать:
Если этого нет, postmortem превращается в восстановление событий по памяти.
Мониторят только infra metrics и 5xx.
Чтобы остановить один опасный lane, приходится выключать весь продукт.
Сандбокс уничтожили, а понять уже ничего нельзя.
После отключения lane пользователю остаётся только полная недоступность.
Тот же failure mode потом повторяется.
Полезно оценивать severity не только по числу ошибок, но и по типу побочного эффекта:
Это лучше отражает реальный business impact.
Минимальный incident dashboard обычно включает:
Последняя метрика особенно важна: хороший incident response должен не только тушить пожар, но и уменьшать шанс его повторения.