Guardrails (гарды) — это защитные механизмы и фильтры, которые ограничивают поведение AI-модели и предотвращают нежелательные ответы. Они работают как «ограждения на дороге» — не дают модели выехать за безопасные границы.
Гарды могут применяться на нескольких уровнях:
| Тип | Что делает | Пример |
|---|---|---|
| Контент-фильтр | Блокирует опасный или неуместный контент | Отказ отвечать на запрос о создании вирусов |
| Проверка фактов | Снижает риск галлюцинаций | Проверка утверждений по базе знаний |
| Контроль формата | Гарантирует нужный формат ответа | Ответ строго в JSON-формате |
| Тематический фильтр | Ограничивает тему разговора | Бот для техподдержки не обсуждает политику |
| PII-фильтр | Защищает персональные данные | Маскирование номеров телефонов в ответе |
Гарды могут быть реализованы через системные промпты, отдельные классификационные модели, регулярные выражения и правила, а также через специализированные фреймворки.