RLHF (Обучение с подкреплением на основе обратной связи от людей)

Метод обучения языковых моделей, при котором люди оценивают ответы модели, а модель учится генерировать более полезные и безопасные ответы.

RLHF (Reinforcement Learning from Human Feedback) — это метод обучения, при котором люди-оценщики помогают языковой модели понять, какие ответы хорошие, а какие нет. Именно благодаря RLHF модели стали полезными и безопасными.

Как это работает

RLHF проходит в три этапа:

Предобучение. Модель обучается на огромном количестве текста из интернета и учится предсказывать следующее слово.
Сбор оценок. Люди-оценщики сравнивают несколько ответов модели на один вопрос и выбирают лучший. На основе этих оценок обучается «модель вознаграждения».
Оптимизация. Модель учится генерировать ответы, которые получат высокую оценку от модели вознаграждения.

До и после RLHF

Без RLHF	С RLHF
Модель может продолжить любой текст	Модель отвечает на вопросы по делу
Может генерировать вредный контент	Отказывается от опасных запросов
Не понимает намерения пользователя	Старается быть полезной и точной
Просто предсказывает следующее слово	Ведёт осмысленный диалог

Почему это важно

Без RLHF ChatGPT, Claude и другие ассистенты просто продолжали бы текст, как автодополнение в поисковой строке. RLHF научил их понимать, чего хочет пользователь, и давать полезные ответы.

Связанные термины

Fine-tuning — дообучение модели, частью которого может быть RLHF
LLM — языковая модель, которую обучают с помощью RLHF
Галлюцинации — ложные ответы, которые RLHF помогает сократить

Источники

RAG (Retrieval-Augmented Generation)

Tool Use / Function Calling