RLHF (Reinforcement Learning from Human Feedback) — это метод обучения, при котором люди-оценщики помогают языковой модели понять, какие ответы хорошие, а какие нет. Именно благодаря RLHF модели стали полезными и безопасными.
RLHF проходит в три этапа:
| Без RLHF | С RLHF |
|---|---|
| Модель может продолжить любой текст | Модель отвечает на вопросы по делу |
| Может генерировать вредный контент | Отказывается от опасных запросов |
| Не понимает намерения пользователя | Старается быть полезной и точной |
| Просто предсказывает следующее слово | Ведёт осмысленный диалог |
Без RLHF ChatGPT, Claude и другие ассистенты просто продолжали бы текст, как автодополнение в поисковой строке. RLHF научил их понимать, чего хочет пользователь, и давать полезные ответы.