Evals и Verification для LLM
Судьи, benchmark-ы, agent evals и практики проверки качества AI-систем
Этот курс собирает в одну траекторию то, что в AI-разработке часто лежит кусками: offline evals, judge-модели, benchmark-ы и проверка агентного поведения. Его задача не в том, чтобы дать ещё один список метрик, а в том, чтобы научить выстраивать evaluation stack, который действительно помогает принимать инженерные решения.
Первый модуль закладывает фундамент: зачем нужны evals, чем они отличаются от обычного тестирования и почему без них почти невозможно управлять качеством LLM-систем. Второй модуль фокусируется на judge-системах: rubric-based judging, специализированные evaluators и ограничения LLM-as-a-judge. Третий модуль переносит разговор в сторону benchmark-ов и agent evals, где важно уметь читать leaderboard-ы, интерпретировать disagreement и не путать capability score с реальной надёжностью системы.
Курс рассчитан на инженеров, продактов и аналитиков, которые уже работают с LLM-функциями и хотят перестать оценивать их по интуиции. После прохождения у вас будет более зрелое понимание того, как строить проверку качества для чат-ассистентов, RAG, judge-pipelines и агентных систем.
Лучше всего проходить курс после базового знакомства с production-практиками LLM. Если темы evals для вас пока совсем новые, начните с курса про AI в продакшене, а затем вернитесь сюда за более глубоким слоем про judge-системы, benchmark-ы и agent evals. Внутри самого курса модули лучше идти по порядку: сначала foundation, потом judging, и только после этого переходить к leaderboard-ам и поведенческим evals.
Модуль 1: Фундамент evals
Что такое evals, зачем они нужны и как устроен базовый evaluation stack
Модуль 2: Judge-системы
Rubric-based judges, специализированные evaluators и controlled judging
Модуль 3: Benchmark-ы и agent evals
Как читать leaderboard-ы и оценивать не только ответы, но и поведение систем
