Этот курс собирает в одну траекторию то, что в AI-разработке часто лежит кусками: offline evals, judge-модели, benchmark-ы и проверка агентного поведения. Его задача не в том, чтобы дать ещё один список метрик, а в том, чтобы научить выстраивать evaluation stack, который действительно помогает принимать инженерные решения.

Первый модуль закладывает фундамент: зачем нужны evals, чем они отличаются от обычного тестирования и почему без них почти невозможно управлять качеством LLM-систем. Второй модуль фокусируется на judge-системах: rubric-based judging, специализированные evaluators и ограничения LLM-as-a-judge. Третий модуль переносит разговор в сторону benchmark-ов и agent evals, где важно уметь читать leaderboard-ы, интерпретировать disagreement и не путать capability score с реальной надёжностью системы.

Курс рассчитан на инженеров, продактов и аналитиков, которые уже работают с LLM-функциями и хотят перестать оценивать их по интуиции. После прохождения у вас будет более зрелое понимание того, как строить проверку качества для чат-ассистентов, RAG, judge-pipelines и агентных систем.

Лучше всего проходить курс после базового знакомства с production-практиками LLM. Если темы evals для вас пока совсем новые, начните с курса про AI в продакшене, а затем вернитесь сюда за более глубоким слоем про judge-системы, benchmark-ы и agent evals. Внутри самого курса модули лучше идти по порядку: сначала foundation, потом judging, и только после этого переходить к leaderboard-ам и поведенческим evals.

Evals и Verification для LLM

Модуль 1: Фундамент evals

Модуль 2: Judge-системы

Модуль 3: Benchmark-ы и agent evals