Перплексия (Perplexity)

Метрика качества языковой модели, показывающая, насколько уверенно модель предсказывает следующее слово. Чем ниже перплексия — тем лучше.

Перплексия — это числовая метрика, которая показывает, насколько хорошо языковая модель предсказывает текст. Простыми словами, это мера «удивления» модели: чем меньше модель удивляется при чтении текста, тем лучше она его понимает.

Как это работает

Представьте, что модель читает текст слово за словом и пытается угадать каждое следующее слово. Если модель часто угадывает верно — перплексия низкая. Если модель постоянно ошибается и «удивляется» — перплексия высокая.

Перплексия 1 — модель идеально предсказывает каждое слово (недостижимый идеал)
Перплексия 10 — модель как будто выбирает из 10 равновероятных вариантов
Перплексия 100+ — модель плохо понимает текст

Практический пример

Модель	Перплексия на тестовом тексте	Интерпретация
Большая GPT-модель	8–15	Отлично понимает язык
Средняя модель	20–40	Приемлемое качество
Простая модель	50–100	Слабое понимание

Когда это важно

Перплексия полезна при сравнении моделей на одном и том же тексте. Однако она не говорит о способности модели следовать инструкциям или вести диалог — для этого нужны другие метрики и бенчмарки.

Связанные термины

Бенчмарк — стандартный тест для оценки моделей
Evaluation — процесс оценки качества AI-моделей
Токен — единица текста, для которой модель вычисляет вероятность

Источники

Мультимодальность (Multimodal)

Промпт (Prompt)