Перплексия (Perplexity)

Метрика качества языковой модели, показывающая, насколько уверенно модель предсказывает следующее слово. Чем ниже перплексия — тем лучше.

Перплексия — это числовая метрика, которая показывает, насколько хорошо языковая модель предсказывает текст. Простыми словами, это мера «удивления» модели: чем меньше модель удивляется при чтении текста, тем лучше она его понимает.

Как это работает

Представьте, что модель читает текст слово за словом и пытается угадать каждое следующее слово. Если модель часто угадывает верно — перплексия низкая. Если модель постоянно ошибается и «удивляется» — перплексия высокая.

  • Перплексия 1 — модель идеально предсказывает каждое слово (недостижимый идеал)
  • Перплексия 10 — модель как будто выбирает из 10 равновероятных вариантов
  • Перплексия 100+ — модель плохо понимает текст

Практический пример

МодельПерплексия на тестовом текстеИнтерпретация
Большая GPT-модель8–15Отлично понимает язык
Средняя модель20–40Приемлемое качество
Простая модель50–100Слабое понимание

Когда это важно

Перплексия полезна при сравнении моделей на одном и том же тексте. Однако она не говорит о способности модели следовать инструкциям или вести диалог — для этого нужны другие метрики и бенчмарки.

Связанные термины

  • Бенчмарк — стандартный тест для оценки моделей
  • Evaluation — процесс оценки качества AI-моделей
  • Токен — единица текста, для которой модель вычисляет вероятность