MIRACL-VISION важен потому, что document retrieval всё чаще работает не с голым текстом, а с page images, таблицами, инфографикой и layout-heavy PDFs. OCR or plain text extraction там часто теряют критичные сигналы. Этот benchmark проверяет, насколько retrieval pipeline справляется именно с visual documents.
В 2026 MIRACL-VISION особенно полезен для document AI and multimodal RAG. Он делает измеримой задачу, которую text-only retrieval benchmarks почти не покрывают: multilingual visual document search.
MIRACL оценивает text retrieval, а MIRACL-VISION добавляет:
Это делает benchmark особенно важным для document pipelines.
MIRACL-VISION хорошо подходит для:
Если ваши документы already normalized to clean text, benchmark может быть избыточен.
Представьте, что пользователь ищет страницу с таблицей тарифов, где нужный план выделен цветом, а рядом в сноске указаны ограничения по регионам. OCR может извлечь почти весь текст, но потерять:
В таком кейсе OCR-only pipeline может казаться "почти правильным", потому что слова в документе присутствуют. Но фактическая retrieval usefulness будет низкой: система найдёт страницу, не понимая, какой именно visual fragment решает задачу. MIRACL-VISION как раз полезен для измерения таких провалов.
MIRACL-VISION очень полезен, но:
Есть и важный confound: в multilingual setting ошибка может происходить не в visual reasoning, а в OCR, script handling или language-specific preprocessing. Если эти слои не разбирать отдельно, легко приписать провал visual retriever-у, хотя источник проблемы ниже по стеку.
Поэтому benchmark особенно силён как multimodal complement to text benchmarks.
Search over documents increasingly means search over visual documents. MIRACL-VISION важен потому, что превращает multilingual page-level retrieval в воспроизводимый benchmark и показывает, где VLM-based retrieval реально пока слаб.
Это делает его ключевым benchmark-ом для document-heavy multimodal systems.