RAPTOR меняет саму структуру retrieval-корпуса. Вместо набора независимых chunks система строит дерево: нижний уровень хранит исходные фрагменты, а верхние уровни содержат их рекурсивные summaries. Благодаря этому retrieval может срабатывать не только по локальным кускам текста, но и по более общим представлениям длинного документа.
В 2026 это особенно полезно для длинных документов, policy packs, технических wiki и больших отчётов. Обычный chunk-based RAG там часто промахивается: локальный фрагмент найден, а общий смысл раздела нет.
В plain RAG документ обычно режется на одинаковые chunks, и retrieval ищет только среди них. Это работает для локальных фактов, но плохо отвечает на глобальные вопросы.
RAPTOR строит более богатый индекс:
Поэтому система может сначала найти правильную область смысла, а потом уточнить детали ниже по дереву.
RAPTOR хорошо подходит для:
Если corpus состоит из коротких независимых заметок, выгода будет меньше.
RAPTOR требует preprocessing и более дорогого индекса:
То есть техника особенно оправдана на тяжёлых knowledge corpora, а не в маленьких FAQ.
Контекстные окна растут, но проблема не исчезает: найти правильный кусок длинного документа всё ещё трудно. RAPTOR важен тем, что делает retrieval структурным, а не просто более длинным.
Это полезно там, где пользователи задают и локальные, и глобальные вопросы к одному и тому же корпусу.