Alignment — это процесс обучения AI-модели действовать в соответствии с целями, ценностями и ожиданиями человека. Задача alignment — сделать модель полезной, честной и безопасной.
После базового обучения на текстах модель умеет генерировать текст, но не знает, как быть полезным помощником. Alignment добавляет это понимание через несколько этапов:
| Принцип | Что значит | Пример |
|---|---|---|
| Полезность (Helpful) | Модель стремится решить задачу пользователя | Даёт точный, полный ответ на вопрос |
| Честность (Honest) | Модель не выдумывает факты | Говорит «я не знаю» вместо придумывания ответа |
| Безопасность (Harmless) | Модель не причиняет вреда | Отказывается давать опасные инструкции |
Иногда принципы конфликтуют: пользователь просит потенциально опасную информацию — модель должна быть полезной, но и безопасной. Найти правильный баланс — одна из главных задач исследователей AI.