Retrieval Canonical Source Policies в 2026: как задавать главные источники знания в RAG, чтобы система не путалась в конкурирующих документах
Retrieval canonical source policies в 2026: как определять canonical sources, приоритеты и override-правила, чтобы RAG не смешивал равноправно черновики, архивы и официальные документы.
Retrieval canonical source policies в 2026 нужны потому, что RAG редко ломается только из-за векторного поиска. Часто проблема в том, что в knowledge base одновременно живут официальные политики, устаревшие архивы, локальные черновики, tenant-specific exceptions и случайные копии одних и тех же правил. Если система не знает, какой источник canonical, retriever может честно найти релевантный текст, но всё равно привести к неправильному ответу.
Canonical source policy — это правило, которое говорит RAG-системе, какой источник считается главным и более авторитетным, если данные конфликтуют или дублируются.
Самый вредный anti-pattern - считать все найденные документы равноправными только потому, что они похожи по тексту и попали в топ выдачи.
Без canonical policy модель часто смешивает их в один будто бы согласованный answer.
Если два источника выглядят одинаково полезными для retriever-а, но один из них реально authoritative, canonical status должен быть encoded явно, а не подразумеваться в голове команды.
def source_priority(doc):
return 2 if doc.get("canonical") else 1
Практический совет: хороший RAG отвечает не только по самому похожему тексту, а по самому похожему тексту среди тех источников, которым система вообще должна доверять в этом вопросе.
Проверьте себя
1. Почему similarity сама по себе недостаточна для RAG?
2. Какой anti-pattern особенно вреден?
3. Что полезно делать с canonical policy downstream?