Бенчмарк — это стандартизированный набор задач и тестов, по которым оценивают и сравнивают качество работы AI-моделей. Это как единый экзамен, который сдают все модели, чтобы можно было честно сопоставить их результаты.
Бенчмарк содержит заранее подготовленные вопросы или задания с известными правильными ответами. Модель решает эти задания, а затем подсчитывается её итоговый балл. Чем выше балл — тем лучше модель справляется с данным типом задач.
| Бенчмарк | Что проверяет | Пример задачи |
|---|---|---|
| MMLU | Знания в 57 предметных областях | Вопросы по физике, истории, праву |
| HumanEval | Умение писать код | Написать функцию на Python по описанию |
| GSM8K | Математические рассуждения | Текстовые задачи уровня школы |
| HellaSwag | Здравый смысл | Выбрать логичное продолжение ситуации |
| ARC | Научные рассуждения | Вопросы из школьных экзаменов |
Ни один бенчмарк не охватывает все способности модели. Модель может отлично справляться с тестом по математике, но плохо писать тексты. Поэтому при выборе модели стоит смотреть на несколько бенчмарков, релевантных вашим задачам.