Retrieval Source Deprecation в 2026: как выводить источники из RAG без тихого quality drift

Retrieval source deprecation в 2026: как отключать, архивировать и снижать вес устаревших corpora, чтобы старая база знаний не продолжала влиять на ответы и действия.

Retrieval source deprecation в 2026 нужен потому, что corpora редко умирают красиво. Старый help center закрыли, legacy wiki формально архивировали, policy corpus заменили новой структурой, но retriever всё ещё видит старые chunks как релевантные. В итоге deprecated source продолжает влиять на ответы и даже на actions, хотя команда уже считает его "историческим". Без явной deprecation policy старая база знаний умирает только в головах людей, а не в RAG pipeline.

Source deprecation — это правило, как система должна обращаться с устаревшими источниками: больше не использовать, использовать только для истории или использовать с пониженным trust.
Самый вредный anti-pattern - удалить источник из документации для людей, но не убрать его из retrieval index. Тогда пользователь и команда думают, что старый источник умер, а модель продолжает на него опираться.

Короткая версия

Хорошая deprecation policy в 2026 обычно определяет:

  1. Какие corpora считаются deprecated
  2. Можно ли их ещё retrieve-ить
  3. Для каких use cases они ещё допустимы
  4. Как это влияет на trust и answer policy
  5. Когда источник физически удаляется из активного retrieval path

Что особенно важно

  • deprecation должен жить в retrieval metadata, а не только в Confluence;
  • deprecated source не должен quietly участвовать в action-support;
  • архивный corpus и активный corpus требуют разного policy weight;
  • removal из UI и removal из index — не одно и то же.
Без техники
Старая policy wiki помечена как legacy, но retriever всё ещё возвращает её top-3.
С техникой
Corpus получил deprecation status, выпал из active retrieval tiers и может использоваться только как historical reference с явным downgrade.
ПромптDeprecation intuition
Почему deprecated source опасен даже если он формально не удалён?
Ответ модели

Потому что retriever продолжает видеть его как релевантный материал и может дать ему незаслуженное влияние на ответы или решения.

1. Deprecation должен быть частью source metadata

Полезные статусы:

  • active;
  • limited_use;
  • deprecated;
  • archived;
  • removed.

Такой lifecycle лучше, чем бинарное есть / нет.

2. Deprecated source не обязан сразу исчезать полностью

Иногда полезно:

  • убрать его из primary retrieval;
  • оставить только для historical lookup;
  • запретить action support;
  • показывать явный deprecation note в citations;
  • использовать его только в migration workflows.
Если источник уже нельзя считать нормативным, его минимум нужно вывести из active action-support paths, даже если вы пока храните его для истории.

3. Deprecation полезно связывать с source replacement

Команде важно понимать:

  • чем заменяется старый corpus;
  • когда replacement стал canonical;
  • есть ли routing overlap между old и new;
  • сколько legacy answers ещё приходят со старого источника.

Иначе migration растягивается бесконечно.

4. Deprecation должен влиять на ranking и policy

Полезные эффекты:

  • rank penalty;
  • trust downgrade;
  • action_eligible=false;
  • citation warning;
  • conflict escalation if deprecated source disagrees with active source.

5. Что особенно часто ломают команды

Deprecated only in docs

В индексе источник живёт как раньше.

No replacement mapping

Непонятно, какой corpus должен его заменить.

Legacy source still supports actions

Самый опасный режим.

Hard delete without audit

Команда теряет понимание, где legacy source ещё влиял.

No monitoring of residual usage

Источник вроде deprecated, но метрик по его фактическому использованию нет.

6. Какие метрики полезны

Минимальный dashboard обычно включает:

  • deprecated-source retrieval rate;
  • answers citing deprecated corpora;
  • action attempts supported by deprecated sources;
  • overlap between old and replacement corpus;
  • time to full retirement;
  • conflict rate between deprecated and active sources.

Плюсы

  • Deprecation policy уменьшает hidden influence старых corpora
  • Помогает безопаснее мигрировать knowledge bases
  • Связывает freshness governance и retrieval routing
  • Делает citations и support path честнее

Минусы

  • Нужно вести source lifecycle metadata
  • Миграция между corpora требует дополнительного мониторинга
  • Слишком ранний deprecation может просадить coverage
  • Без replacement plan deprecated source может зависнуть навсегда

Пример source lifecycle

corpora:
  legacy_policy_wiki:
    status: deprecated
    action_eligible: false
    replacement: policy_portal_v4

Простой policy sketch

def may_support_action(source):
    return source["status"] == "active" and source["action_eligible"]

Практический совет: хороший deprecation не начинается с удаления файлов. Он начинается с того, что deprecated source перестаёт иметь старую policy weight в retrieval stack.

Проверьте себя

1. Почему deprecated source опасен даже после пометки legacy?

2. Что особенно важно сделать первым?

3. Какой anti-pattern особенно опасен?