LLM Security на практике

Threat model, red teaming, refusal calibration и agent safety для реальных AI-систем

Продвинутый~6ч17 уроков

Безопасность LLM-систем давно перестала быть темой только для policy-команд. Если вы строите чат-ассистента, RAG, agent runtime или internal copilot, вам нужен не абстрактный разговор о рисках, а практическая рамка: threat model, safeguards, red teaming, refusal calibration и agent-specific safety checks. Этот курс как раз про такую рамку.

Первый модуль объясняет базу безопасности: от общих safeguard-практик до быстрых safety diagnostics. Второй модуль посвящён атакам и red teaming: что такое standardized safety eval, почему jailbreak landscape постоянно меняется и зачем нужен in-the-wild realism layer. Третий модуль разбирает refusal calibration и agent safety — область, где слишком жёсткая защита так же вредна, как и слишком слабая.

Курс рассчитан на инженеров, product owners и техлидов, которым нужно встроить safety в реальную AI-систему, а не ограничиться общими словами про "ответственное использование". После курса у вас будет более зрелая модель того, как соединять безопасность, качество и полезность.

Это не вводный курс по AI-безопасности, а прикладной production-слой. Лучше проходить его после знакомства с базовыми темами security, evals и agent systems. Последовательность модулей здесь тоже принципиальна: сначала нужно понять safeguard base и threat model, потом изучить attack landscape, и только затем переходить к тонкой калибровке refusal behavior и безопасности acting systems.

Модуль 1: База безопасности

Threat model, safeguards и базовые safety diagnostics

  1. Введение: база безопасности
  2. Безопасность LLM
  3. Do-Not-Answer
  4. SafetyBench
  5. Проверь себя: база безопасности

Модуль 2: Атаки и red teaming

Jailbreak-атаки, standardized red teaming и in-the-wild threat landscape

  1. Введение: атаки и red teaming
  2. AI Red Teaming
  3. HarmBench
  4. JailbreakBench
  5. WildJailbreak
  6. Проверь себя: атаки

Модуль 3: Refusal calibration и agent safety

Over-refusal, fine-grained refusal behavior и безопасность acting systems

  1. Введение: refusal calibration
  2. XSTest
  3. OR-Bench
  4. SORRY-Bench
  5. Agent-SafetyBench
  6. Проверь себя: calibration