Retrieval Fallback Hierarchies в 2026: как деградировать поиск без ложной уверенности

Retrieval fallback hierarchies в 2026: как строить каскад между primary retriever, reranker, trusted corpora и abstain mode, чтобы RAG не выдавал слабый поиск за уверенный answer.

Retrieval fallback hierarchies в 2026 нужны потому, что retrieval редко ломается как один явный outage. Гораздо чаще падает один кусок каскада: reranker недоступен, индекс отстаёт, metadata filters работают неполно, trusted corpus пуст для конкретного tenant-а. Если в этот момент система просто "ищет как получится" и продолжает отвечать с той же уверенностью, пользователь получает не graceful degradation, а скрытое снижение качества.

Fallback hierarchy — это заранее спроектированная лестница вариантов: что делать, если основной retrieval path не дал достаточно хорошего результата. Хорошая иерархия не только ищет запасной путь, но и меняет confidence, citation policy и иногда вообще переводит систему в abstain mode.
Самый вредный anti-pattern - иметь fallback только как "если не сработал reranker, просто покажем top-k из всего индекса". Без trust и confidence-поправок это делает ответ хуже, но не честнее.

Короткая версия

Хорошая retrieval fallback hierarchy в 2026 обычно задаёт:

  1. Primary retrieval path
  2. Fallback paths по типу сбоя
  3. Какие trust classes разрешены на каждом уровне
  4. Когда нужно снижать confidence или отключать actions
  5. Когда нужно честно abstain instead of answer

Что особенно важно

  • fallback должен зависеть от failure mode, а не быть одним общим запасным поиском;
  • weaker retrieval path должен менять policy ответа;
  • trusted internal corpus и external search нельзя считать равнозначными fallback-ами;
  • fallback hierarchy полезна только вместе с eval-метриками по каждому уровню.
Без техники
При недоступности reranker система сразу отвечает по сырым vector results, сохраняя тот же UI confidence и policy для citations.
С техникой
Pipeline переходит в заранее описанный fallback tier: сокращает допустимые claims, понижает confidence, ужесточает citation rules и может выбрать abstain для risky questions.
ПромптFallback intuition
Если основной retrieval path недоступен, всегда ли нужно отвечать из запасного индекса?
Ответ модели

Нет. Сначала нужно понять, какой trust и quality даёт fallback. Иногда правильнее ограничить scope ответа или честно отказаться, чем скрыть деградацию слабым retrieval.

1. Не все retrieval failures одинаковы

Полезно разделять хотя бы такие случаи:

  • no results;
  • low-confidence results;
  • reranker unavailable;
  • metadata filter failure;
  • tenant corpus stale;
  • external search only.

У каждого режима разный acceptable fallback.

2. Fallback должен быть trust-aware

Пример разумной иерархии:

  1. trusted tenant corpus + reranker;
  2. trusted tenant corpus without reranker;
  3. trusted global corpus only;
  4. trusted FAQ / policy subset;
  5. abstain or ask clarifying question.

Внешний web search не обязан быть следующим шагом после внутреннего failure. Часто это уже другой trust class, а значит и другая policy.

Если fallback меняет класс источника, он должен менять и то, что система имеет право утверждать пользователю.

3. Fallback влияет не только на retrieval, но и на answer policy

Когда pipeline спускается на более слабый уровень, полезно менять:

  • allowed claim scope;
  • citation strictness;
  • answer verbosity;
  • tool/action eligibility;
  • user-visible confidence band.

Иначе у пользователя остаётся впечатление, что качество стабильно, хотя система уже в degraded evidence mode.

4. Clarification и abstain тоже часть иерархии

Хороший fallback path не всегда означает "найти что-то любой ценой". Иногда сильнее:

  • задать уточняющий вопрос;
  • ограничиться summary of known-safe facts;
  • явно сообщить о нехватке надёжных источников;
  • эскалировать в human review.

Это особенно важно для:

  • compliance answers;
  • policy interpretation;
  • financial or medical-like workflows;
  • action-triggering agents.

5. Что особенно часто ломают команды

One generic fallback

Один и тот же запасной путь на все типы retrieval failures.

External search as hidden substitute

Внешний контент quietly подменяет внутренний trusted corpus.

No confidence downgrade

Fallback уже слабее, но UI и routing ведут себя как раньше.

No per-tier evals

Команда знает общий retrieval score, но не знает, как ведёт себя каждый уровень иерархии.

No abstain mode

Система отвечает даже там, где evidence уже недостаточно.

6. Какие метрики полезны

Минимальный dashboard обычно включает:

  • fallback activation rate by tier;
  • groundedness by fallback tier;
  • abstain rate after retrieval degradation;
  • unsupported-claim rate in fallback mode;
  • fraction of answers served from weaker trust class;
  • time spent in degraded retrieval state.

Плюсы

  • Fallback hierarchies делают RAG предсказуемее при частичной деградации
  • Trust-aware tiers уменьшают скрытый quality drift
  • Abstain и clarification защищают от ложной уверенности
  • Per-tier evals помогают увидеть слабые места retrieval stack

Минусы

  • Нужно проектировать и тестировать несколько retrieval modes вместо одного
  • Слишком осторожный fallback может снижать coverage
  • Trust-aware routing требует metadata и provenance discipline
  • User-facing confidence policy усложняется

Пример fallback policy

retrieval_tiers:
  - name: tenant_corpus_reranked
    allows_actions: true
    confidence: high
  - name: tenant_corpus_raw
    allows_actions: false
    confidence: medium
  - name: trusted_global_faq
    allows_actions: false
    confidence: low
  - name: abstain
    allows_actions: false
    confidence: none

Простой routing sketch

def choose_retrieval_tier(state):
    if state["tenant_reranker_ok"] and state["tenant_hits"] > 0:
        return "tenant_corpus_reranked"
    if state["tenant_hits"] > 0:
        return "tenant_corpus_raw"
    if state["trusted_global_hits"] > 0:
        return "trusted_global_faq"
    return "abstain"

Практический совет: проектируйте fallback hierarchy не как способ "всё равно дать ответ", а как способ честно ограничить систему, когда evidence path ослаблен.

Проверьте себя

1. Почему fallback hierarchy должна зависеть от типа retrieval failure?

2. Что особенно важно при переходе на более слабый retrieval tier?

3. Какой anti-pattern особенно опасен?