Retrieval Trust Boundaries в 2026: почему найденный документ не становится инструкцией

Retrieval trust boundaries в 2026: как разделять trusted policy, retrieved data, web results и user-provided docs, чтобы RAG не превращался в injection channel.

Retrieval trust boundaries в 2026 нужны потому, что RAG ломается не только из-за плохого поиска, но и из-за неправильного отношения к найденному контенту. Как только система начинает воспринимать retrieved text как authority, а не как данные для анализа, retrieval превращается в канал инъекции: web page, customer email, случайный PDF или устаревший policy fragment начинают влиять на поведение агента сильнее, чем должны.

Главная мысль простая: найденный документ может быть полезным evidence, но он не становится trusted instruction только потому, что retriever его нашёл.

RAG не должен относиться к найденным документам так, будто это новые системные инструкции. Документы нужны как данные и доказательства. Полномочия системы задаются в другом слое: policy, tool permissions, validation и review logic.

Самый опасный anti-pattern - вставлять retrieved content в prompt как будто это trusted guidance для следующего действия. Так вы стираете границу между context и authority, а вместе с ней и большую часть защиты от indirect prompt injection.

1. RAG ломается не только по recall, но и по authority

Хороший retrieval может всё равно привести к плохому результату, если система не понимает:

кто написал документ;
когда он был обновлён;
относится ли он к trusted corpus;
является ли он нормативным источником или просто обсуждением;
можно ли на его основе запускать действия.

Именно поэтому quality и trust в RAG нужно разводить.

2. Полезная шкала trust classes

Policy authority

Системные и продуктовые правила:

internal policy blocks;
validated business rules;
fixed governance docs.

Trusted internal references

Документы, которые можно использовать как evidence, но не как source of authority by default:

internal manuals;
KB articles;
support guides.

Retrieved evidence

То, что retriever нашёл как потенциально полезный материал:

chunks;
search snippets;
indexed docs.

Untrusted external text

web search results;
uploaded third-party docs;
customer notes;
emails;
scraped pages.

Полезно, когда pipeline знает, из какого класса пришёл фрагмент.

Релевантность и доверие — разные оси. Документ может быть очень релевантным и при этом слабым источником authority.

3. Retrieved text не должен переписывать policy layer

Одна из самых полезных архитектурных границ:

policy instructions живут отдельно;
retrieval даёт фактический материал;
final answer и action decisions проходят validation.

Если retrieved content может менять tool permissions, approval rules или safety constraints, RAG pipeline уже стал injection surface, а не просто retrieval layer.

4. Provenance важнее "похоже на правду"

При работе с retrieval полезно хранить:

collection/source id;
owner;
timestamp;
document type;
trust class;
freshness status.

Это позволяет отвечать на вопросы:

это internal KB или случайный web result;
это официальная политика или обсуждение;
это свежая версия или старая.

Без provenance у вас остаётся только лингвистическое сходство текста, а этого мало для high-stakes answers.

5. Tool use и retrieval нужно связывать осторожно

Особенно опасный сценарий:

retriever находит внешнюю страницу;
в ней есть инструкции или misleading text;
агент воспринимает это как достаточное основание для tool call.

Поэтому между retrieval и action почти всегда полезны:

trust filters;
summarization with sanitization;
explicit validation;
human review on risky paths.

unsupported-claim rate by trust class;
unsafe action attempts conditioned on retrieved external text;
provenance-missing rate;
stale trusted-doc usage rate;
citation correctness by source class;
disagreement between trusted policy and retrieved evidence.

Это помогает видеть не только "хорошо ли ищем", но и "правильно ли обращаемся с найденным".

Плюсы

Trust boundaries уменьшают injection risk в RAG и agentic retrieval
Provenance помогает отделять authority от просто релевантного текста
Разделение policy layer и evidence layer делает ответы честнее
Trust-aware eval показывает failure modes, которые не видны через одну helpfulness-метрику

Минусы

Нужно хранить больше metadata на уровне retrieval pipeline
Слишком жёсткие trust classes могут снижать recall полезного контента
Внешний web content требует дополнительного sanitization layer
Без product UX пользователь может не понимать, почему часть источников считается слабее

Источники

Retrieval Source Deprecation в 2026: как выводить источники из RAG без тихого quality drift

Self-RAG: RAG с самооценкой

Retrieval Trust Boundaries в 2026: почему найденный документ не становится инструкцией

Короткая версия

Что особенно важно

1. RAG ломается не только по recall, но и по authority

2. Полезная шкала trust classes

Policy authority

Trusted internal references

Retrieved evidence

Untrusted external text

3. Retrieved text не должен переписывать policy layer

4. Provenance важнее "похоже на правду"

5. Tool use и retrieval нужно связывать осторожно

6. Что особенно часто ломают команды

One big context blob

Relevance = trust

No provenance fields

Retrieved instructions treated as commands

No trust-aware eval

7. Какие метрики полезны

Плюсы

Минусы

Пример trust-aware retrieval record

Простой policy rule

Источники