Query2doc решает старую проблему поиска: пользовательский запрос слишком короткий, двусмысленный или просто сформулирован не тем языком, которым написаны документы. Вместо прямого поиска по исходной строке LLM сначала генерирует псевдо-документ, который раскрывает тему подробнее, а уже потом retrieval использует этот расширенный текст.
В 2026 техника особенно полезна в search-heavy AI-системах, где не хочется учить новый retriever, но нужно быстро поднять recall. По сути, это query expansion на стероидах, но без изменения самого retrieval engine.
Обе техники используют LLM для расширения retrieval input, но акцент немного разный:
HyDE делает упор на hypothetical document embeddings;Query2doc фокусируется на query expansion через сгенерированный pseudo-document для sparse и dense retrieval.Практически это означает, что Query2doc удобно думать как об LLM-powered query rewriting, где выход похож на маленький релевантный документ.
Query2doc хорошо работает для:
Техника особенно полезна, если релевантные документы в корпусе есть, но не всплывают в top-k.
Если модель слишком смело домысливает тему, Query2doc может увести поиск в неверное направление. Поэтому техника выигрывает там, где expansion controlled, а не превращается в фантазию.
Кроме того, Query2doc не заменяет reranking и quality control retrieval-результатов.
Даже при сильных embeddings проблема плохого query formulation никуда не делась. Query2doc остаётся полезным как дешёвый способ улучшить первый шаг retrieval без отдельного retriever training проекта.
Это делает технику особенно удобной для продуктовых команд, которым нужен быстрый прирост качества поиска.