RLHF (Обучение с подкреплением на основе обратной связи от людей)

Метод обучения языковых моделей, при котором люди оценивают ответы модели, а модель учится генерировать более полезные и безопасные ответы.

RLHF (Reinforcement Learning from Human Feedback) — это метод обучения, при котором люди-оценщики помогают языковой модели понять, какие ответы хорошие, а какие нет. Именно благодаря RLHF модели стали полезными и безопасными.

Как это работает

RLHF проходит в три этапа:

  1. Предобучение. Модель обучается на огромном количестве текста из интернета и учится предсказывать следующее слово.
  2. Сбор оценок. Люди-оценщики сравнивают несколько ответов модели на один вопрос и выбирают лучший. На основе этих оценок обучается «модель вознаграждения».
  3. Оптимизация. Модель учится генерировать ответы, которые получат высокую оценку от модели вознаграждения.

До и после RLHF

Без RLHFС RLHF
Модель может продолжить любой текстМодель отвечает на вопросы по делу
Может генерировать вредный контентОтказывается от опасных запросов
Не понимает намерения пользователяСтарается быть полезной и точной
Просто предсказывает следующее словоВедёт осмысленный диалог

Почему это важно

Без RLHF ChatGPT, Claude и другие ассистенты просто продолжали бы текст, как автодополнение в поисковой строке. RLHF научил их понимать, чего хочет пользователь, и давать полезные ответы.

Связанные термины

  • Fine-tuning — дообучение модели, частью которого может быть RLHF
  • LLM — языковая модель, которую обучают с помощью RLHF
  • Галлюцинации — ложные ответы, которые RLHF помогает сократить