Synthetic Incident Drills в 2026: как репетировать поломки agent stack до реального инцидента

Synthetic incident drills в 2026: outage simulation, tool failure scenarios, routing chaos и проверка kill-switch/runbook readiness для AI-систем.

Synthetic incident drills в 2026 нужны потому, что agent stack редко ломается красиво и предсказуемо. На практике инцидент может начаться не с полного outage, а с ростa retries, смены route behavior, падения citation quality, repeated tool mismatch или слишком позднего human escalation. Если команда не репетировала такие сценарии заранее, runbooks и kill switches обычно оказываются непропорционально слабыми в реальной ситуации.

Synthetic drill — это управляемая симуляция проблемы. Команда специально создаёт условия, похожие на реальный сбой, и проверяет: сработают ли алерты, поймёт ли on-call, что делать, и можно ли быстро ограничить ущерб.
Самый вредный anti-pattern - надеяться, что runbook "и так понятный". Пока команда не прошла через synthetic drill, почти всегда скрыто остаётся то, что триггеры слабые, evidence capture неполный, а containment path слишком медленный или слишком грубый.

Короткая версия

Хороший synthetic drill в 2026 обычно проверяет:

  1. Detection
  2. Containment
  3. Fallback / degraded mode
  4. Evidence capture
  5. Recovery and rollback

Что особенно полезно симулировать

  • provider outage;
  • sudden tool failure spike;
  • approval queue backlog;
  • retrieval poisoning or trust-boundary incident;
  • runaway agent loops.
Без техники
Команда уверена, что kill switch и fallback готовы, потому что они описаны в доке.
С техникой
После synthetic drill стало видно, что alert поднялся поздно, screenshots не сохранились, а manual mode включился слишком широко. Runbook доработали до реального incident readiness.
ПромптDrill intuition
Что важнее в synthetic drill: реалистичная поломка или идеальная полнота симуляции?
Ответ модели

Обычно важнее реалистичный operational сценарий, который проверяет detection, containment и recovery. Идеально полная симуляция не обязательна, если команда действительно проверяет ключевые decision points.

1. Drill нужен для проверки не модели, а системы реагирования

Главный вопрос drills звучит не "может ли агент ошибиться?" — это и так известно. Более полезные вопросы:

  • заметим ли мы ошибку вовремя;
  • сможем ли ограничить blast radius;
  • сохраним ли нужные артефакты;
  • не сломаем ли при containment полсервиса;
  • умеем ли восстановиться без повторного инцидента.

2. Какие сценарии особенно полезны

Provider degradation

  • latency spike;
  • partial outage;
  • schema drift;
  • fallback activation.

Tool-layer incident

  • repeated timeouts;
  • stale result injection;
  • wrong-tool burst;
  • external API mismatch.

Review-layer incident

  • queue overload;
  • approval service unavailable;
  • escalation backlog.

RAG/trust incident

  • poisoned retrieval;
  • stale policy doc;
  • missing provenance.

Agent runaway

  • repeated loops;
  • duplicate side effects;
  • browser task stuck in retry cycle.
Лучший drill обычно бьёт не в самый очевидный полный outage, а в частичную деградацию, которая выглядит "не так уж страшно", но на практике сложнее диагностируется и дольше живёт незамеченной.

3. Drills полезно проводить на runbook boundaries

Хороший drill проверяет:

  • кто получает alert;
  • кто owner containment;
  • где находится kill switch;
  • кто подтверждает degraded mode;
  • как сохраняются traces and artifacts;
  • как команда решает, что recovery уже безопасен.

Это делает drill не просто technical exercise, а проверкой operational coordination.

4. Shadow and synthetic можно комбинировать

Например:

  • synthetic outage в staging;
  • shadow comparison в production;
  • replay проблемных traces;
  • review queue simulation.

Так можно проверить и technical mechanics, и human response, не создавая лишний риск на живом трафике.

5. Что особенно часто ломают команды

Drill as theater

Команда формально проходит сценарий, но без реальных triggers и evidence capture.

No artifact verification

После drill никто не проверяет, что traces, screenshots и state snapshots правда сохранились.

Only one dramatic outage scenario

Частичные degradations не репетируются.

No timing analysis

Команда не меряет time-to-detect и time-to-contain.

No follow-up changes

После drill runbook не меняется.

6. Какие метрики полезны

Минимальный drill dashboard обычно включает:

  • time-to-detect;
  • time-to-contain;
  • percent of required artifacts captured;
  • fallback activation quality;
  • kill-switch targeting accuracy;
  • number of runbook changes after drill.

Плюсы

  • Drills превращают runbooks из текста в проверенный operational механизм
  • Помогают находить слабые alerts и грубые kill switches до реального инцидента
  • Проверяют связку технического и human response
  • Снижают surprise factor во время настоящих сбоев

Минусы

  • Требуют времени и coordination
  • Слишком поверхностные drills быстро становятся формальностью
  • Непродуманные drill-сценарии могут мешать команде, не давая полезного сигнала
  • Нужна дисциплина по follow-up, иначе эффект быстро исчезает

Пример drill matrix

1. Provider latency spike
2. Tool timeout burst
3. Approval queue overload
4. Retrieval trust-boundary incident
5. Runaway browser loop

Пример drill success criteria

success_criteria:
  detect_within_minutes: 5
  contain_within_minutes: 10
  required_artifacts_captured: true
  manual_mode_activated_for_high_risk: true

Практический совет: если synthetic drill не заканчивается конкретными изменениями в alerts, runbooks, packet design или policy, он почти наверняка был слишком декоративным.

Проверьте себя

1. Что synthetic incident drill проверяет в первую очередь?

2. Какие сценарии особенно полезны?

3. Какой anti-pattern особенно вреден?