Mr. TyDi

Mr. TyDi в 2026: benchmark для dense retrieval на 11 типологически разных языках, полезный для проверки mono-lingual retrieval quality вне high-resource English settings.

Mr. TyDi важен как benchmark для dense retrieval в non-English settings. Он хорошо показывает, что dense retrieval tricks, работающие в English, далеко не всегда так же хорошо работают на других языках, особенно typologically diverse и lower-resource ones.

В 2026 Mr. TyDi остаётся полезным именно как компактный и понятный multilingual dense retrieval benchmark. Он уже не самый широкий, но всё ещё отлично ловит пробелы в cross-lingual generalization.

Mr. TyDi полезен там, где нужно проверить, не разваливается ли dense retrieval за пределами English-centric assumptions.

Чем Mr. TyDi отличается от более широких multilingual benchmark-ов

MIRACL шире, а Mr. TyDi делает акцент на конкретной dense retrieval problem:

mono-lingual ad hoc retrieval;
strong focus on dense representations;
typological diversity;
компактный, но очень показательный setup.

Из-за этого benchmark особенно полезен для быстрого dense retrieval diagnostics.

Dense retrieval only in English

Модель выглядит сильной на английском, но команда не знает, сохраняется ли это качество на других языках.

Mr. TyDi

Команда получает benchmark, где видно, насколько dense retrieval реально переносится на типологически разные языки.

Когда техника особенно полезна

Mr. TyDi хорошо подходит для:

multilingual dense retrievers;
benchmarking bi-encoders;
early-stage cross-lingual diagnostics;
comparing sparse vs dense performance outside English.

Если нужен very broad multilingual benchmark with more languages and tasks, MIRACL может быть полезнее.

Почему Mr. TyDi до сих пор полезен рядом с MIRACL

Хотя MIRACL шире, Mr. TyDi остаётся ценным именно как focused benchmark для dense retrieval. Его сила в том, что он не пытается быть всем сразу:

не распыляется на слишком много task types;
быстро показывает, держится ли dense retriever вне English;
хорошо вскрывает типологические провалы без лишнего benchmark шума.

Поэтому Mr. TyDi особенно полезен в ранней диагностике. Если dense model плохо выглядит уже здесь, обычно нет смысла сразу интерпретировать более широкий multilingual story. Сначала нужно понять, выдерживает ли retriever базовый перенос на разные языковые структуры.

Сразу идём в широкий multilingual eval

Команда смотрит только на широкий multilingual benchmark и не понимает, проблема в общей multilingualization или в базовом dense retrieval quality.

Сначала dense retrieval sanity check

Mr. TyDi используется как компактный dense retrieval check, который быстро показывает, выдерживает ли модель типологически разные языки.

Ограничения

Mr. TyDi хорош, но:

язык coverage уже, чем у новых multilingual benchmarks;
benchmark фокусируется на dense retrieval;
domain spread ограничен;
он не заменяет product corpus evaluation.

Нужно помнить и о том, что Mr. TyDi оценивает mostly mono-lingual retrieval. Если реальный продукт живёт в cross-lingual режиме, где запрос и документы часто на разных языках, потребуется отдельный слой evals.

Поэтому его лучше использовать как targeted dense retrieval benchmark.

Почему техника актуальна в 2026

Даже сейчас многие dense retrieval models остаются English-first по факту, а не по обещанию. Mr. TyDi важен потому, что быстро и честно показывает этот разрыв.

Это делает его отличным compact benchmark-ом для multilingual dense retrieval teams.

Источники

Mixture-of-Agents (MoA)

Multi-Agent Debate

Mr. TyDi

Коротко

Чем Mr. TyDi отличается от более широких multilingual benchmark-ов

Когда техника особенно полезна

Почему Mr. TyDi до сих пор полезен рядом с MIRACL

Ограничения

Почему техника актуальна в 2026

Техническая реализация

Источники