MIRACL-VISION

Система получила более реалистичный signal о качестве visual document retrieval, чем из text-only multilingual benchmark-ов.

Чем MIRACL-VISION отличается от обычного MIRACL

MIRACL оценивает text retrieval, а MIRACL-VISION добавляет:

page image retrieval;

layout-sensitive documents;

visual cues beyond OCR text;

multilingual document search in visual form.

Это делает benchmark особенно важным для document pipelines.

Text-only multilingual retrieval

Система хорошо ищет текст, но неясно, справится ли она с визуально сложными документами, где layout сам по себе несёт смысл.

MIRACL-VISION

Команда получает benchmark, который измеряет retrieval quality на реальных page-like visual documents.

Пример, где OCR-only baseline вводит в заблуждение

Представьте, что пользователь ищет страницу с таблицей тарифов, где нужный план выделен цветом, а рядом в сноске указаны ограничения по регионам. OCR может извлечь почти весь текст, но потерять:

визуальную связь между строкой и сноской;

различие между основным и архивным тарифом;

важность цветового или positional emphasis;

то, что релевантный ответ находится не в сплошном тексте, а в конкретном блоке страницы.

В таком кейсе OCR-only pipeline может казаться "почти правильным", потому что слова в документе присутствуют. Но фактическая retrieval usefulness будет низкой: система найдёт страницу, не понимая, какой именно visual fragment решает задачу. MIRACL-VISION как раз полезен для измерения таких провалов.

OCR-only retrieval

Система индексирует только распознанный текст и игнорирует структуру страницы, из-за чего не различает нужную таблицу, подпись и сноску.

Visual document retrieval

Ретривер учитывает page layout и visual grouping, поэтому находит документ и правильный visual region, а не просто страницу с похожими словами.

Ограничения

MIRACL-VISION очень полезен, но:

benchmark дорог по compute;

visual retrieval сложнее диагностировать;

он не заменяет обычный text retrieval evaluation;

performance зависит от document preprocessing choices.

Есть и важный confound: в multilingual setting ошибка может происходить не в visual reasoning, а в OCR, script handling или language-specific preprocessing. Если эти слои не разбирать отдельно, легко приписать провал visual retriever-у, хотя источник проблемы ниже по стеку.

Поэтому benchmark особенно силён как multimodal complement to text benchmarks.

Почему техника актуальна в 2026

Search over documents increasingly means search over visual documents. MIRACL-VISION важен потому, что превращает multilingual page-level retrieval в воспроизводимый benchmark и показывает, где VLM-based retrieval реально пока слаб.

Это делает его ключевым benchmark-ом для document-heavy multimodal systems.

Коротко

Чем MIRACL-VISION отличается от обычного MIRACL

Когда техника особенно полезна

Пример, где OCR-only baseline вводит в заблуждение

Ограничения

Почему техника актуальна в 2026

Техническая реализация