Гарды (Guardrails)

Защитные механизмы и фильтры, ограничивающие поведение AI-модели: блокировка опасного контента, проверка фактов, контроль формата ответов.

Guardrails (гарды) — это защитные механизмы и фильтры, которые ограничивают поведение AI-модели и предотвращают нежелательные ответы. Они работают как «ограждения на дороге» — не дают модели выехать за безопасные границы.

Как это работает

Гарды могут применяться на нескольких уровнях:

  1. На входе — проверка запроса пользователя до отправки в модель
  2. В модели — встроенные ограничения, заложенные при обучении
  3. На выходе — проверка ответа модели перед показом пользователю

Типы гардов

ТипЧто делаетПример
Контент-фильтрБлокирует опасный или неуместный контентОтказ отвечать на запрос о создании вирусов
Проверка фактовСнижает риск галлюцинацийПроверка утверждений по базе знаний
Контроль форматаГарантирует нужный формат ответаОтвет строго в JSON-формате
Тематический фильтрОграничивает тему разговораБот для техподдержки не обсуждает политику
PII-фильтрЗащищает персональные данныеМаскирование номеров телефонов в ответе

Зачем нужны гарды

  • Безопасность — предотвращение генерации вредного контента
  • Надёжность — снижение галлюцинаций и ошибок
  • Соответствие правилам — выполнение требований регуляторов
  • Качество продукта — предсказуемое поведение AI в приложении

Как реализуются

Гарды могут быть реализованы через системные промпты, отдельные классификационные модели, регулярные выражения и правила, а также через специализированные фреймворки.

Связанные термины

  • Alignment — обучение модели следовать правилам, на которые опираются гарды
  • Prompt Injection — атака, от которой гарды защищают
  • Jailbreak — попытка обойти гарды
  • Системный промпт — один из основных способов задать гарды