Архитектуры RAG

Архитектуры RAG в 2026: 2-step, retrieval-enhanced, corrective, agentic, graph-oriented и hosted retrieval вместо старой схемы naive/advanced/modular.

В 2026 архитектуры RAG полезно описывать не через старую лестницу naive -> advanced -> modular, а через операционные паттерны retrieval-систем. Главный вопрос уже не “насколько система продвинутая”, а какой retrieval flow нужен для конкретного типа вопросов, данных и SLA.

Поэтому современный RAG-ландшафт удобнее делить так:

  • 2-step RAG как базовый predictable pipeline;
  • retrieval-enhanced RAG с hybrid, reranking и multi-query;
  • corrective/adaptive RAG, где retrieval сначала оценивается;
  • agentic RAG, где orchestration решает, искать ли вообще и чем искать;
  • graph-oriented RAG, где retrieval строится вокруг сущностей и связей;
  • hosted retrieval, где часть retrieval layer уже даёт платформа.
Архитектура RAG отвечает не на вопрос “какую библиотеку взять”, а на вопрос “как именно система принимает решение о поиске, выборе источников и сборке контекста”. Это уже не одна коробка, а несколько разных operational patterns.
Не начинайте с самой сложной архитектуры. Большинству knowledge-base сценариев сначала нужен хорошо измеренный 2-step pipeline, а не агент с пятью источниками, reflection-циклом и графовой индексацией.

Короткая версия

Условно современные RAG-архитектуры можно расположить так:

АрхитектураЧто делаетКогда полезна
2-step RAGвсегда retrieve -> always answerFAQ, docs QA, support KB
Retrieval-enhancedhybrid, rerank, rewrite, fusionкогда baseline retrieval нестабилен
Corrective / adaptiveоценивает retrieval и меняет routemixed-quality corpora
Agentic RAGсам планирует поиск и toolsсложные многошаговые задачи
Graph-orientedищет по сущностям, связям и summariesобзорные и relationship-heavy вопросы
Hosted retrievalчасть retrieval встроена в APIбыстрый запуск с меньшим infra
ПромптRAG architecture choice
Задача: внутренний help center на 5 000 статей, короткие одношаговые вопросы, нужен быстрый SLA.
Ответ модели

Правильный default — 2-step RAG + hybrid retrieval + reranking. Agentic и graph architectures тут, скорее всего, избыточны.

Как выбирать

  • если вопросы короткие и повторяющиеся, начните с 2-step;
  • если retrieval пропускает важные документы, добавьте hybrid, multi-query, reranking;
  • если качество retrieval плавает, нужен corrective слой;
  • если задача реально multi-step, тогда уже agentic;
  • если пользователи спрашивают про связи и общие картины по большому корпусу, смотрите в сторону GraphRAG.

1. 2-step RAG остаётся основным baseline

Базовая схема всё ещё выглядит так:

user question
-> retrieval
-> prompt/context assembly
-> grounded answer

Эта архитектура до сих пор хороша, потому что:

  • предсказуема;
  • дёшева в отладке;
  • легко оценивается;
  • почти всегда достаточна для FAQ, documentation QA и support copilot.

Важно только не путать “простая” с “примитивная”. Хороший 2-step RAG в 2026 уже обычно включает:

  • metadata filters;
  • нормальный chunking;
  • top-k discipline;
  • answer policy с no-answer;
  • иногда hosted file_search или vector_store.

2. Retrieval-enhanced RAG — это уже practical default

Следующий слой сложности не в оркестрации, а в улучшении retrieval stage.

Сюда входят:

  • hybrid search;
  • query rewriting;
  • multi-query retrieval;
  • reranking;
  • context compression;
  • weighted fusion.

Именно этот слой чаще всего даёт наибольший прирост качества без полного перехода в agentic architecture.

Без техники
{ "title": "Слабо", "content": "Один dense retriever, `k=5`, документы сразу отправляются в модель." }
С техникой
{ "title": "Сильнее", "content": "Hybrid retrieval -> fusion -> reranker -> compacted top context. Это всё ещё 2-step RAG, но уже production-grade." }

3. Corrective и adaptive architectures нужны, когда retrieval нестабилен

Не все корпуса одинаково чистые. Иногда:

  • часть документов устарела;
  • query formulation пользователя слабая;
  • индекс даёт шум;
  • ответа в базе вообще нет.

Тогда полезны corrective patterns:

  • оценка retrieved docs;
  • fallback на другой retriever;
  • query rewrite;
  • escalation на web search или другой knowledge source;
  • честный I don't know.

Такие архитектуры полезнее понимать как retrieval governance, а не как “магический новый тип RAG”.

4. Agentic RAG — не upgrade для всех

Agentic RAG добавляет оркестрацию:

  • решает, нужен ли retrieval вообще;
  • выбирает источник;
  • может делать несколько шагов поиска;
  • вызывает tools;
  • проверяет, достаточно ли данных.

Это имеет смысл, когда вопрос:

  • составной;
  • требует plan-and-search;
  • комбинирует несколько источников;
  • не укладывается в одно retrieval действие.

Но для обычного FAQ agentic path часто только:

  • увеличивает latency;
  • поднимает cost;
  • усложняет eval и debug.

5. Graph-oriented architectures решают другой класс вопросов

GraphRAG и соседние graph-based retrieval patterns полезны не потому, что “графы моднее”, а потому что они лучше отвечают на вопросы:

  • про связи между сущностями;
  • про общие темы в большом корпусе;
  • про cross-document synthesis;
  • про общие тренды, а не один фрагмент текста.

Такие архитектуры дороже в индексации и сложнее в support, поэтому оправданы только если users действительно задают synthesis-heavy questions.

6. Hosted retrieval — уже полноценный архитектурный выбор

В 2026 RAG уже не всегда означает самодельные embeddings + self-managed vector DB.

Есть hosted paths:

  • vector stores;
  • file_search;
  • managed retrieval inside provider APIs;
  • integrated metadata filtering and citations.

Это меняет архитектурный выбор:

  • custom path даёт контроль;
  • hosted path даёт скорость запуска и меньше infra.

Поэтому “архитектура RAG” теперь включает и степень контроля над retrieval internals.

7. Полезная practical taxonomy

Вместо “naive / advanced / modular” полезнее думать так:

ВопросАрхитектурный ответ
Retrieval нужен почти всегда и поведение должно быть простым2-step RAG
Retrieval даёт не лучший recallretrieval-enhanced
Retrieval quality сильно плаваетcorrective / adaptive
Задачи действительно multi-stepagentic
Нужен обзор и работа со связямиgraph-oriented
Не хочется поднимать infrahosted retrieval

8. Как выбирать архитектуру по порядку

Здоровый порядок обычно такой:

  1. сделать 2-step baseline;
  2. измерить retrieval и answer quality;
  3. добавить hybrid/rerank/multi-query, если baseline слаб;
  4. только потом рассматривать corrective или agentic;
  5. идти в GraphRAG только если появились corpus-level synthesis questions.

Именно так архитектурный выбор остаётся инженерным, а не декоративным.

Плюсы

  • Такая taxonomy лучше отражает реальный RAG landscape 2026
  • Помогает не перепрыгивать сразу в overengineered architectures
  • Разводит retrieval quality, orchestration и graph reasoning как разные слои
  • Учитывает появление hosted retrieval как отдельного пути

Минусы

  • Не даёт одного универсального шаблона для всех задач
  • Требует сначала измерить workload, а не выбирать по модным словам
  • Agentic и graph paths легко переоценить до появления реальной потребности
  • Hosted retrieval ускоряет старт, но уменьшает контроль над internals

Минимальная decision схема

single-step docs QA?
-> yes -> 2-step RAG
   -> retrieval weak? add hybrid + reranking

retrieval unreliable or answer often missing?
-> add corrective/adaptive layer

query needs multiple sources / planning / tools?
-> consider agentic RAG

query asks for themes, relationships, corpus synthesis?
-> consider GraphRAG

need fastest launch with less infra?
-> consider hosted file_search / vector_store path

Архитектурный upgrade стоит делать только если его можно обосновать через конкретный failure mode:

  • low recall;
  • noisy context;
  • missing answers;
  • cross-source tasks;
  • overview questions.
Проверьте себя

1. Какой архитектурный default чаще всего разумен для docs QA и help center?

2. Что чаще всего даёт лучший upgrade после слабого baseline RAG?

3. Что изменило архитектурный выбор в 2026?