Agent Retry Budgets в 2026: сколько повторов можно позволить до того, как агент начнёт вредить
Agent retry budgets в 2026: как ограничивать retries по шагам, tools, workflows и routes, чтобы агент не превращал recoverable failure в дорогой каскад.
Agent retry budgets в 2026 нужны потому, что retries выглядят как полезная resilience-мера ровно до того момента, когда агент начинает зацикливаться, прожигать budget, перегружать tools и увеличивать blast radius уже после того, как problem ceased to be recoverable. В production не все ошибки стоит повторять одинаково. У каждого шага, tool class и workflow есть свой разумный предел повторов.
Retry budget - это ограничение на количество и стоимость повторных попыток. Оно отвечает на вопрос не "можно ли ретраить", а "сколько ретраев ещё рациональны до перехода в fallback, escalation или terminate".
Самый вредный anti-pattern - строить retries как отдельную техническую деталь без product context. Для AI-системы лишний retry - это не только latency, но и лишние tool calls, approvals, cost и риск side effects.
1. Separate retry budgets by step and tool semantics
2. Add workflow-level ceilings for time and cost
3. Distinguish retryable from non-retryable failures explicitly
4. Define clear fallback or escalation after budget exhaustion
5. Track retry spend and recovery quality, not just attempt count
Практический совет: зрелый агент не тот, который retry-ит дольше всех, а тот, который раньше понимает, когда recovery перестала быть экономически и operationally разумной.
Проверьте себя
1. Почему retry budget полезнее простого `max_retries=3`?