Evals и Verification для LLM

Судьи, benchmark-ы, agent evals и практики проверки качества AI-систем

Продвинутый~6ч17 уроков

Этот курс собирает в одну траекторию то, что в AI-разработке часто лежит кусками: offline evals, judge-модели, benchmark-ы и проверка агентного поведения. Его задача не в том, чтобы дать ещё один список метрик, а в том, чтобы научить выстраивать evaluation stack, который действительно помогает принимать инженерные решения.

Первый модуль закладывает фундамент: зачем нужны evals, чем они отличаются от обычного тестирования и почему без них почти невозможно управлять качеством LLM-систем. Второй модуль фокусируется на judge-системах: rubric-based judging, специализированные evaluators и ограничения LLM-as-a-judge. Третий модуль переносит разговор в сторону benchmark-ов и agent evals, где важно уметь читать leaderboard-ы, интерпретировать disagreement и не путать capability score с реальной надёжностью системы.

Курс рассчитан на инженеров, продактов и аналитиков, которые уже работают с LLM-функциями и хотят перестать оценивать их по интуиции. После прохождения у вас будет более зрелое понимание того, как строить проверку качества для чат-ассистентов, RAG, judge-pipelines и агентных систем.

Лучше всего проходить курс после базового знакомства с production-практиками LLM. Если темы evals для вас пока совсем новые, начните с курса про AI в продакшене, а затем вернитесь сюда за более глубоким слоем про judge-системы, benchmark-ы и agent evals. Внутри самого курса модули лучше идти по порядку: сначала foundation, потом judging, и только после этого переходить к leaderboard-ам и поведенческим evals.

Модуль 1: Фундамент evals

Что такое evals, зачем они нужны и как устроен базовый evaluation stack

  1. Введение: фундамент evals
  2. Eval: оценка качества LLM
  3. Evals 2.0
  4. LLM-as-a-Judge
  5. Проверь себя: фундамент evals

Модуль 2: Judge-системы

Rubric-based judges, специализированные evaluators и controlled judging

  1. Введение: judge-системы
  2. G-Eval
  3. Prometheus
  4. Prometheus 2
  5. JudgeLM
  6. Проверь себя: judge-системы

Модуль 3: Benchmark-ы и agent evals

Как читать leaderboard-ы и оценивать не только ответы, но и поведение систем

  1. Введение: benchmark-ы и agent evals
  2. Chatbot Arena
  3. IFEval
  4. τ-bench
  5. AgentBench
  6. Проверь себя: benchmark-ы