Retrieval Escalation SLAs в 2026: как задавать сроки реакции на RAG-инциденты, чтобы knowledge issues не висели неделями
Retrieval escalation SLAs в 2026: как задавать сроки реакции для engine, content и ownership escalation, чтобы retrieval-проблемы не терялись между платформой и владельцами знаний.
Retrieval escalation SLAs в 2026 нужны потому, что у RAG-инцидентов почти всегда несколько возможных адресатов: retrieval engine, reranking layer, corpus owner, policy team, tenant owner. Когда сроки не определены, кейс легко зависает между командами. Platform ждёт ответа от content owner-а, owner ждёт деталей от ML, продукт ждёт, пока "кто-нибудь разберётся". В итоге даже понятная retrieval-проблема остаётся активной слишком долго.
Escalation SLA — это ожидаемое время реакции и решения для конкретного типа retrieval-проблемы и конкретного владельца.
Самый вредный anti-pattern - иметь один общий SLA на все RAG-инциденты. Engine outage, stale policy source и ownerless corpus требуют разной скорости и разных исполнителей.
def sla_breached(opened_at, target_at, now):
return now > target_at
Практический совет: retrieval SLA становится полезным только тогда, когда он описывает не абстрактную "скорость реакции", а конкретный маршрут ответственности от incident до remediation.
Проверьте себя
1. Почему один общий SLA на все retrieval incidents плох?