Query2doc

[object Object]

Query2doc решает старую проблему поиска: пользовательский запрос слишком короткий, двусмысленный или просто сформулирован не тем языком, которым написаны документы. Вместо прямого поиска по исходной строке LLM сначала генерирует псевдо-документ, который раскрывает тему подробнее, а уже потом retrieval использует этот расширенный текст.

В 2026 техника особенно полезна в search-heavy AI-системах, где не хочется учить новый retriever, но нужно быстро поднять recall. По сути, это query expansion на стероидах, но без изменения самого retrieval engine.

Query2doc не отвечает за пользователя. Он только помогает поиску, превращая короткий запрос в более содержательный retrieval input.

Коротко

Query2doc полезен, когда:

  • пользователь пишет слишком коротко;
  • query не совпадает с терминологией корпуса;
  • retrieval стабильно недобирает релевантные документы;
  • нужен простой способ улучшить recall.
ПромптGPT-5
Раскрой запрос в псевдо-документ для поиска, не отвечая напрямую.

Запрос: как уменьшить галлюцинации в RAG?
Ответ модели

Модель сгенерировала короткий псевдо-документ про retrieval quality, grounding, citation checks и corrective loops, после чего поиск нашёл более релевантные статьи, чем по исходному короткому вопросу.

Смысл техники в том, чтобы улучшить поиск до генерации ответа.

Чем Query2doc отличается от HyDE

Обе техники используют LLM для расширения retrieval input, но акцент немного разный:

  • HyDE делает упор на hypothetical document embeddings;
  • Query2doc фокусируется на query expansion через сгенерированный pseudo-document для sparse и dense retrieval.

Практически это означает, что Query2doc удобно думать как об LLM-powered query rewriting, где выход похож на маленький релевантный документ.

Короткий query
Система ищет по сырому пользовательскому запросу и страдает от lexical mismatch и semantic underspecification.
Query2doc
Система сначала расширяет запрос в псевдо-документ, а затем использует его как более богатый input для retrieval.

Когда техника особенно полезна

Query2doc хорошо работает для:

  • enterprise search;
  • длинных knowledge bases;
  • документации и API-справочников;
  • multilingual retrieval;
  • случаев, где у пользователя слабый query discipline.

Техника особенно полезна, если релевантные документы в корпусе есть, но не всплывают в top-k.

Ограничения

Если модель слишком смело домысливает тему, Query2doc может увести поиск в неверное направление. Поэтому техника выигрывает там, где expansion controlled, а не превращается в фантазию.

Кроме того, Query2doc не заменяет reranking и quality control retrieval-результатов.

Почему техника актуальна в 2026

Даже при сильных embeddings проблема плохого query formulation никуда не делась. Query2doc остаётся полезным как дешёвый способ улучшить первый шаг retrieval без отдельного retriever training проекта.

Это делает технику особенно удобной для продуктовых команд, которым нужен быстрый прирост качества поиска.

Техническая реализация

const pseudoDoc = await model(expandQueryPrompt(query))
const docs = await retrieve({
  query,
  expandedQuery: pseudoDoc
})

Практический совет: сравнивайте top-k по сырому запросу и по expanded query. Иначе трудно понять, помогает техника или просто создаёт более длинный noise input.

Проверьте себя

1. Что делает Query2doc?

2. Когда Query2doc особенно полезен?

3. Главный риск Query2doc?