Retrieval Cache Invalidation в 2026: как кэшировать RAG без выдачи вчерашней правды

Retrieval cache invalidation в 2026: как обновлять cached snippets, query results и answer-support context при смене документов, индексов и metadata.

Retrieval cache invalidation в 2026 нужна потому, что кэш в RAG улучшает latency и cost, но очень легко начинает хранить неправильную версию реальности. Cached query results, snippets, reranked lists и answer-support bundles могут оставаться в ходу уже после обновления документов, metadata, tenant scopes или целого индекса. В итоге система выглядит быстрой, но grounded quality quietly деградирует.

Кэш в RAG - это не только final answer cache. Часто кэшируются retrieval hits, reranking results, summaries и support snippets. И каждый такой слой может устареть по-своему.

Самый вредный anti-pattern - считать retrieval cache чисто performance-слоем. Если invalidation плохо спроектирована, кэш становится silent source of stale knowledge.

1. В RAG кэш существует на нескольких слоях

Часто кэшируются:

retrieval candidate sets;
reranked top-k;
support snippets;
query rewrites;
final grounded answer bundles.

Каждый слой имеет свою semantics freshness и не должен invalidat-иться одинаково.

2. Cache key должен знать контекст retrieval

Полезные поля:

tenant scope;
route;
corpus or index version;
retrieval config;
metadata filter profile;
language or locale.

Без этого кэш будет reuse-ить результаты за пределами их истинной валидности.

Если cache key не меняется при смене индекса, tenant scope или filter policy, вы, скорее всего, кэшируете не результат запроса, а случайный слепок старой retrieval-конфигурации.

3. Document change invalidation нужна отдельно от TTL

Особенно полезно explicit busting при:

update or delete document;
deprecate policy;
change tenant visibility;
rebuild index;
retag metadata;
change reranker config.

Это предотвращает ситуацию, когда technically new corpus уже есть, а operationally система ещё живёт на старом support context.

4. Targeted invalidation лучше полного purge

Полный cache wipe иногда нужен, но чаще полезнее:

invalidate by document lineage;
invalidate by tenant;
invalidate by route;
invalidate by retrieval release id;
invalidate only reranking layer.

Так можно не терять весь performance gain ради локального обновления.

5. После invalidation важно смотреть не только hit rate

Полезные сигналы:

stale retrieval complaints;
grounding recovery after update;
post-invalidation latency jump;
cache miss surge by route;
unsupported-claim delta;
tenant-specific regressions.

Иначе cache ops выглядят "успешно", хотя product behaviour стал хуже.

cache hit rate by retrieval layer;
stale-hit incident rate;
invalidation lag after document update;
cache reuse across wrong scope attempts;
latency delta after invalidation events;
grounding recovery time.

Плюсы

Version-aware invalidation сохраняет и speed, и freshness
Targeted busting уменьшает unnecessary cache churn
Scope-aware keys снижают silent cross-context reuse
Layered cache model делает RAG behaviour предсказуемее

Минусы

Нужно поддерживать richer cache metadata and events
Слишком сложная invalidation logic сама может стать источником bugs
Hit-rate metrics без quality signals вводят в заблуждение
Полезно отдельно тестировать invalidation после every retrieval release

Источники

RAG Fusion: умное расширение запросов

Retrieval Canonical Source Policies в 2026: как задавать главные источники знания в RAG, чтобы система не путалась в конкурирующих документах

Retrieval Cache Invalidation в 2026: как кэшировать RAG без выдачи вчерашней правды

Короткая версия

Что особенно важно

1. В RAG кэш существует на нескольких слоях

2. Cache key должен знать контекст retrieval

3. Document change invalidation нужна отдельно от TTL

4. Targeted invalidation лучше полного purge

5. После invalidation важно смотреть не только hit rate

6. Что особенно часто ломают команды

TTL-only thinking

Shared cache across contexts

Final-answer-centric design

Full purge by default

No version tags in keys

7. Какие метрики полезны

Плюсы

Минусы

Пример retrieval cache key

Практический checklist

Источники