Evaluation (эвалюация) — это систематический процесс оценки того, насколько хорошо AI-модель справляется с задачами. Включает тестирование на бенчмарках, экспертную оценку и автоматическую проверку качества ответов.
Оценку проводят, чтобы понять: подходит ли модель для конкретной задачи, стала ли новая версия лучше и где модель ошибается. Основные подходы:
| Метод | Описание | Пример |
|---|---|---|
| Бенчмарки | Стандартные тесты с правильными ответами | MMLU, HumanEval, GSM8K |
| Человеческая оценка | Эксперты оценивают ответы вручную | Оценка «полезности» по шкале 1-5 |
| LLM-as-judge | Другая модель оценивает ответы | GPT-4 проверяет ответы другой модели |
| A/B-тестирование | Сравнение двух моделей на одинаковых запросах | Пользователи голосуют за лучший ответ |
Без систематической оценки невозможно понять, какая модель лучше подходит для вашей задачи. Промпт, который отлично работает с одной моделью, может давать плохие результаты с другой.