Agent-SafetyBench важен потому, что агентная безопасность отличается от безопасности обычного чат-бота. Как только модель получает environment interaction и tool use, появляются новые риски: небезопасные действия, плохая оценка угроз, недостаточная robust behavior under pressure и нарушения процедур.
В 2026 это уже не факультативная тема. Для практических agents вопрос не только в том, решают ли они задачи, но и в том, как они ведут себя в рискованных сценариях. Agent-SafetyBench пытается сделать эту сторону измеримой.
Agent-SafetyBench полезен там, где нужно оценивать не только capability, но и safety behavior агента в интерактивной среде.
продукт использует tools, browsing или environment interaction.
ПромптGPT-5
Оцени agent на рискованных интерактивных сценариях: замечает ли он угрозы, отказывается ли от опасных действий и остаётся ли устойчивым к unsafe prompts.
Ответ модели
Система получила отдельный benchmark-сигнал по safety behavior агента, а не только по его общей полезности.
Capability eval часто отвечает на вопрос: может ли агент выполнить задачу. Agent-SafetyBench важен потому, что задаёт другой вопрос: как именно агент ведёт себя, когда задача связана с риском, ограничениями и опасными действиями.
Практический пример:
агент успешно находит нужную кнопку и умеет завершать workflow;
но игнорирует warning signals, обходит approval step или продолжает risky sequence после явного stop cue;
capability benchmark засчитает success, а safety eval зафиксирует опасную траекторию.
Именно поэтому agent safety нельзя читать через task success alone. У успешного эпизода тоже может быть небезопасная внутренняя траектория.
Агенты всё чаще получают доступ к браузеру, почте, файлам и внутренним системам. В такой среде простой "модель не сказала ничего плохого" уже не считается достаточной safety-проверкой. Agent-SafetyBench важен, потому что меряет безопасность именно в агентном режиме.
Это делает его необходимым инструментом для safety-conscious agent teams.
Практический совет: ведите отдельные метрики по refusal quality, risky action attempts и failure recovery. Смешивать их в одно число удобно, но почти бесполезно для исправления системы.
Ещё полезно разделять unsafe intent noticed, unsafe action attempted, unsafe action executed и recovered after warning. Такая раскладка быстрее показывает, проблема в risk awareness, policy execution или orchestration around tools.
Проверьте себя
1. Что в первую очередь измеряет Agent-SafetyBench?