Threat model, red teaming, refusal calibration и agent safety для реальных AI-систем
Безопасность LLM-систем давно перестала быть темой только для policy-команд. Если вы строите чат-ассистента, RAG, agent runtime или internal copilot, вам нужен не абстрактный разговор о рисках, а практическая рамка: threat model, safeguards, red teaming, refusal calibration и agent-specific safety checks. Этот курс как раз про такую рамку.
Первый модуль объясняет базу безопасности: от общих safeguard-практик до быстрых safety diagnostics. Второй модуль посвящён атакам и red teaming: что такое standardized safety eval, почему jailbreak landscape постоянно меняется и зачем нужен in-the-wild realism layer. Третий модуль разбирает refusal calibration и agent safety — область, где слишком жёсткая защита так же вредна, как и слишком слабая.
Курс рассчитан на инженеров, product owners и техлидов, которым нужно встроить safety в реальную AI-систему, а не ограничиться общими словами про "ответственное использование". После курса у вас будет более зрелая модель того, как соединять безопасность, качество и полезность.
Это не вводный курс по AI-безопасности, а прикладной production-слой. Лучше проходить его после знакомства с базовыми темами security, evals и agent systems. Последовательность модулей здесь тоже принципиальна: сначала нужно понять safeguard base и threat model, потом изучить attack landscape, и только затем переходить к тонкой калибровке refusal behavior и безопасности acting systems.
Threat model, safeguards и базовые safety diagnostics
Jailbreak-атаки, standardized red teaming и in-the-wild threat landscape
Over-refusal, fine-grained refusal behavior и безопасность acting systems