AI-безопасность

Безопасность AI-систем: от основ AI Safety до prompt injection, red teaming и регулирования

Средний~4ч13 уроков

Искусственный интеллект стремительно проникает во все сферы жизни — от медицинских диагнозов до юридических консультаций и корпоративного документооборота. Вместе с этим растут и риски. В 2023 году сотрудники Samsung непреднамеренно загрузили конфиденциальный исходный код в ChatGPT, а юрист в деле Mata v. Avianca подал в суд документы со ссылками на несуществующие прецеденты, выдуманные языковой моделью. Эти инциденты — не экзотика, а повседневная реальность для тех, кто работает с AI без понимания его ограничений и уязвимостей.

Этот курс даёт системное представление о безопасности AI-систем. Мы начнём с фундамента — что такое AI Safety, какие виды рисков существуют, откуда берётся предвзятость в моделях и как с ней бороться. Затем перейдём к практической стороне: разберём конкретные атаки на языковые модели (prompt injection, jailbreak), познакомимся с методологией red teaming и научимся выстраивать многоуровневую защиту с помощью guardrails. Завершим курс обзором регуляторного ландшафта — от EU AI Act до российского законодательства — и разберём, как обеспечивать compliance в production-системах.

Курс предназначен для разработчиков, продакт-менеджеров, аналитиков и всех, кто внедряет AI в рабочие процессы. Тебе не нужно быть экспертом в машинном обучении — достаточно базового понимания того, как работают языковые модели. Если ты прошёл наш курс «Промптинг с нуля» или имеешь опыт работы с ChatGPT, Claude или другими LLM — ты готов к этому материалу.

После прохождения курса ты будешь понимать таксономию AI-рисков, уметь распознавать и предотвращать основные атаки на LLM, знать принципы построения безопасных AI-систем и ориентироваться в требованиях регуляторов. Это не теоретический курс ради галочки — это практические знания, которые помогут тебе избежать инцидентов вроде тех, с которых мы начали.

Модуль 1: Основы AI Safety

Что такое AI safety, виды рисков, предвзятость моделей

  1. Введение: AI Safety
  2. AI Safety: безопасность AI
  3. Предвзятость в AI
  4. Проверь себя: основы

Модуль 2: Атаки и защита

Prompt injection, jailbreak, red teaming, guardrails

  1. Введение: атаки и защита
  2. Безопасность LLM
  3. AI Red Teaming
  4. Guardrails для LLM
  5. Проверь себя: атаки

Модуль 3: Регулирование

EU AI Act, compliance, мониторинг безопасности в production

  1. Введение: регулирование AI
  2. EU AI Act
  3. Observability: мониторинг LLM
  4. Проверь себя: регулирование