Гарды (Guardrails)

Защитные механизмы и фильтры, ограничивающие поведение AI-модели: блокировка опасного контента, проверка фактов, контроль формата ответов.

Guardrails (гарды) — это защитные механизмы и фильтры, которые ограничивают поведение AI-модели и предотвращают нежелательные ответы. Они работают как «ограждения на дороге» — не дают модели выехать за безопасные границы.

Как это работает

Гарды могут применяться на нескольких уровнях:

На входе — проверка запроса пользователя до отправки в модель
В модели — встроенные ограничения, заложенные при обучении
На выходе — проверка ответа модели перед показом пользователю

Типы гардов

Тип	Что делает	Пример
Контент-фильтр	Блокирует опасный или неуместный контент	Отказ отвечать на запрос о создании вирусов
Проверка фактов	Снижает риск галлюцинаций	Проверка утверждений по базе знаний
Контроль формата	Гарантирует нужный формат ответа	Ответ строго в JSON-формате
Тематический фильтр	Ограничивает тему разговора	Бот для техподдержки не обсуждает политику
PII-фильтр	Защищает персональные данные	Маскирование номеров телефонов в ответе

Зачем нужны гарды

Безопасность — предотвращение генерации вредного контента
Надёжность — снижение галлюцинаций и ошибок
Соответствие правилам — выполнение требований регуляторов
Качество продукта — предсказуемое поведение AI в приложении

Как реализуются

Гарды могут быть реализованы через системные промпты, отдельные классификационные модели, регулярные выражения и правила, а также через специализированные фреймворки.

Связанные термины

Alignment — обучение модели следовать правилам, на которые опираются гарды
Prompt Injection — атака, от которой гарды защищают
Jailbreak — попытка обойти гарды
Системный промпт — один из основных способов задать гарды

Источники

Галлюцинации (Hallucinations)

Дистилляция (Knowledge Distillation)