Query2doc

[object Object]

Query2doc решает старую проблему поиска: пользовательский запрос слишком короткий, двусмысленный или просто сформулирован не тем языком, которым написаны документы. Вместо прямого поиска по исходной строке LLM сначала генерирует псевдо-документ, который раскрывает тему подробнее, а уже потом retrieval использует этот расширенный текст.

В 2026 техника особенно полезна в search-heavy AI-системах, где не хочется учить новый retriever, но нужно быстро поднять recall. По сути, это query expansion на стероидах, но без изменения самого retrieval engine.

Query2doc не отвечает за пользователя. Он только помогает поиску, превращая короткий запрос в более содержательный retrieval input.

Чем Query2doc отличается от HyDE

Обе техники используют LLM для расширения retrieval input, но акцент немного разный:

HyDE делает упор на hypothetical document embeddings;
Query2doc фокусируется на query expansion через сгенерированный pseudo-document для sparse и dense retrieval.

Практически это означает, что Query2doc удобно думать как об LLM-powered query rewriting, где выход похож на маленький релевантный документ.

Короткий query

Система ищет по сырому пользовательскому запросу и страдает от lexical mismatch и semantic underspecification.

Query2doc

Система сначала расширяет запрос в псевдо-документ, а затем использует его как более богатый input для retrieval.

Когда техника особенно полезна

Query2doc хорошо работает для:

enterprise search;
длинных knowledge bases;
документации и API-справочников;
multilingual retrieval;
случаев, где у пользователя слабый query discipline.

Техника особенно полезна, если релевантные документы в корпусе есть, но не всплывают в top-k.

Ограничения

Если модель слишком смело домысливает тему, Query2doc может увести поиск в неверное направление. Поэтому техника выигрывает там, где expansion controlled, а не превращается в фантазию.

Кроме того, Query2doc не заменяет reranking и quality control retrieval-результатов.

Почему техника актуальна в 2026

Даже при сильных embeddings проблема плохого query formulation никуда не делась. Query2doc остаётся полезным как дешёвый способ улучшить первый шаг retrieval без отдельного retriever training проекта.

Это делает технику особенно удобной для продуктовых команд, которым нужен быстрый прирост качества поиска.

Promptbreeder

Quiet-STaR: скрытое мышление модели

Query2doc

Коротко

Чем Query2doc отличается от HyDE

Когда техника особенно полезна

Ограничения

Почему техника актуальна в 2026

Техническая реализация