Jailbreak — это метод обхода встроенных ограничений безопасности AI-модели. Пользователь формулирует запрос особым образом, чтобы модель выдала ответ, который в обычных условиях она бы отклонила.
AI-модели обучены отказывать в выполнении потенциально опасных запросов — например, не давать инструкции по созданию вредоносного ПО. Джейлбрейк-атаки пытаются «обмануть» эти защитные механизмы через хитрые формулировки.
Типичные приёмы:
| Для кого | Значение |
|---|---|
| Пользователи | Понимание границ безопасности AI |
| Разработчики AI | Необходимость постоянного укрепления защиты |
| Компании | Риски при использовании AI в продуктах |
| Исследователи | Поиск уязвимостей для улучшения моделей |
Разработчики моделей постоянно усиливают защиту: обучают модели распознавать манипуляции, добавляют многоуровневые фильтры и тестируют модели на устойчивость к новым типам атак (этот процесс называют red teaming).