Перплексия — это числовая метрика, которая показывает, насколько хорошо языковая модель предсказывает текст. Простыми словами, это мера «удивления» модели: чем меньше модель удивляется при чтении текста, тем лучше она его понимает.
Представьте, что модель читает текст слово за словом и пытается угадать каждое следующее слово. Если модель часто угадывает верно — перплексия низкая. Если модель постоянно ошибается и «удивляется» — перплексия высокая.
| Модель | Перплексия на тестовом тексте | Интерпретация |
|---|---|---|
| Большая GPT-модель | 8–15 | Отлично понимает язык |
| Средняя модель | 20–40 | Приемлемое качество |
| Простая модель | 50–100 | Слабое понимание |
Перплексия полезна при сравнении моделей на одном и том же тексте. Однако она не говорит о способности модели следовать инструкциям или вести диалог — для этого нужны другие метрики и бенчмарки.