Retrieval Provenance Policies в 2026: как делать происхождение источника частью RAG-политики

Retrieval provenance policies в 2026: как хранить owner, source type, freshness и trust class для каждого retrieval item, чтобы ответы и actions опирались не только на релевантность, но и на происхождение.

Retrieval provenance policies в 2026 нужны потому, что один retrieval item без происхождения значит слишком мало. Да, он может быть релевантным. Но кто его написал, когда он был обновлён, какой это source type, относится ли он к trusted corpus и можно ли на его основе принимать action decision — всё это не видно из одного similarity score. Без provenance RAG становится хорошим поиском, но слабой системой принятия решений.

Provenance — это происхождение источника: откуда пришёл фрагмент, кто владелец, насколько он свежий, к какому классу доверия относится и можно ли считать его нормативным.

Самый вредный anti-pattern - хранить provenance только ради красивой citation в UI. На деле provenance должен влиять на routing, confidence и право системы делать claims или actions.

1. Provenance нужен для policy, а не только для explainability

Сильная provenance policy отвечает на вопросы:

это internal KB или external web;
это официальная policy или просто заметка;
кто отвечает за обновление документа;
это свежая версия или stale copy;
допустим ли этот источник для risky decision.

Без этого retrieval item слишком легко получает незаслуженный authority.

2. Provenance должен быть structured

Полезные поля:

source_id;
corpus_id;
source_type;
owner_team;
last_verified_at;
trust_class;
action_eligible.

Если provenance нельзя проверить машинно, он быстро превращается в декоративный label, который не влияет на поведение системы.

3. Ownership и freshness особенно важны для enterprise RAG

Вопрос не только в том, "правда ли это", но и в том:

кто исправит источник после инцидента;
как быстро можно обновить stale item;
какой corpus считается нормативным;
можно ли использовать tenant-specific data в shared route.

Именно поэтому provenance policy полезно связывать с ownership model, а не держать отдельно.

4. Provenance должен менять policy ответа

Например:

trusted policy source разрешает более сильные claims;
stale but trusted source требует caution note;
external source разрешён только как low-trust evidence;
ownerless source нельзя использовать для action support.

Иначе provenance остаётся справкой для человека, но не правилом для системы.

provenance coverage rate;
ownerless-source rate;
stale-source usage rate;
answers based on low-trust provenance;
action attempts backed by ineligible sources;
incident repair time by owner_team.

Плюсы

Structured provenance делает RAG policy-aware, а не только relevance-aware
Ownership ускоряет incident repair и content governance
Freshness и trust class уменьшают риск ложной authority
Provenance помогает строить честные citations и audits

Минусы

Нужно хранить больше metadata на каждый retrieval item
Сбор owner и freshness требует дисциплины на ingestion
Слишком грубые trust classes могут потерять полезные нюансы
Без integration в routing provenance быстро становится формальностью

Источники

Retrieval Policy Overrides в 2026: как вводить исключения в RAG, не ломая базовую retrieval policy

Retrieval Reindex Playbooks в 2026: как переиндексировать knowledge base без слепых деградаций

Retrieval Provenance Policies в 2026: как делать происхождение источника частью RAG-политики

Короткая версия

Что особенно важно

1. Provenance нужен для policy, а не только для explainability

2. Provenance должен быть structured

3. Ownership и freshness особенно важны для enterprise RAG

4. Provenance должен менять policy ответа

5. Что особенно часто ломают команды

Provenance only in UI

No owner field

Stale source treated as normal

External and internal sources mixed

No action eligibility

6. Какие метрики полезны

Плюсы

Минусы

Пример provenance record

Простой policy sketch

Источники