В 2026 статью про RLHF и DPO полезно подавать уже не как “старый метод против нового”, а как обзор preference optimization family. RLHF остаётся исторически важным полным пайплайном, но в практической работе для многих команд DPO стал более понятным default. Параллельно рядом появились RFT, KTO и другие способы оптимизировать модель по сигналу предпочтений или grader-ов.
Главная мысль: после SFT модель уже умеет отвечать. Preference optimization нужен, когда нужно улучшать не просто формат, а какой ответ модель выбирает как лучший.
Исторически RLHF важен, потому что именно он показал, как переводить человеческие предпочтения в улучшение модели.
Классический pipeline:
SFT;Этот подход остаётся концептуально сильным, но operationally дорогим:
Поэтому для многих teams full RLHF уже не выглядит первым practical шагом.
Direct Preference Optimization сильно упростил историю.
Он полезен потому, что:
Именно поэтому в 2026 DPO часто воспринимается как default preference optimization path, если у вас есть chosen/rejected data и вы хотите quality lift после SFT.
Обычно это не “знания”, а:
То есть DPO/RLHF особенно полезны там, где one correct answer отсутствует, но human preference clearly exists.
Preference optimization почти всегда строится на уже нормальном SFT baseline.
Если базовая модель:
то RLHF/DPO не спасут её магически. Они начнут оптимизировать слабый base behavior.
Поэтому practical order обычно такой:
prompt baseline
-> SFT
-> preference optimization
Полезен, когда:
Полезен, когда:
Полезен, когда:
Именно поэтому правильнее думать не “RLHF или DPO”, а “какой reward/preference signal у нас вообще есть”.
Самая болезненная часть не в названии метода, а в качестве preference signal.
Нужны данные, где:
Плохие preference data ломают любой метод:
Здоровая practical рамка такая:
RLHF — max flexibility, max complexity;DPO — strong quality/cost/simplicity tradeoff;RFT — сильный путь для reasoning, но требует grader discipline.Поэтому DPO и родственные методы часто выигрывают не потому, что RLHF “устарел”, а потому, что они лучше совпадают с реальными constraints небольших и средних teams.
Выбирайте по сигналу и по задаче:
| У вас есть | Чаще выбрать |
|---|---|
| Хорошие supervised targets | SFT |
| Chosen/rejected pairs | DPO |
| Reward/grader for complex reasoning | RFT |
| Много infra и сложный alignment research path | RLHF |