Бенчмарк (Benchmark)

Стандартный тест для измерения производительности и качества AI-моделей. Позволяет объективно сравнивать разные модели между собой.

Бенчмарк — это стандартизированный набор задач и тестов, по которым оценивают и сравнивают качество работы AI-моделей. Это как единый экзамен, который сдают все модели, чтобы можно было честно сопоставить их результаты.

Как это работает

Бенчмарк содержит заранее подготовленные вопросы или задания с известными правильными ответами. Модель решает эти задания, а затем подсчитывается её итоговый балл. Чем выше балл — тем лучше модель справляется с данным типом задач.

Популярные бенчмарки

БенчмаркЧто проверяетПример задачи
MMLUЗнания в 57 предметных областяхВопросы по физике, истории, праву
HumanEvalУмение писать кодНаписать функцию на Python по описанию
GSM8KМатематические рассужденияТекстовые задачи уровня школы
HellaSwagЗдравый смыслВыбрать логичное продолжение ситуации
ARCНаучные рассужденияВопросы из школьных экзаменов

Важно помнить

Ни один бенчмарк не охватывает все способности модели. Модель может отлично справляться с тестом по математике, но плохо писать тексты. Поэтому при выборе модели стоит смотреть на несколько бенчмарков, релевантных вашим задачам.

Связанные термины

  • Evaluation — более широкий процесс оценки качества моделей, включающий бенчмарки
  • MMLU — один из самых популярных бенчмарков для оценки знаний LLM
  • Leaderboard — таблица рейтингов моделей по результатам бенчмарков