RLHF и DPO: выравнивание моделей

Preference optimization в 2026: RLHF как исторический полный пайплайн, DPO как practical default и место RFT/KTO рядом с ними.

В 2026 статью про RLHF и DPO полезно подавать уже не как “старый метод против нового”, а как обзор preference optimization family. RLHF остаётся исторически важным полным пайплайном, но в практической работе для многих команд DPO стал более понятным default. Параллельно рядом появились RFT, KTO и другие способы оптимизировать модель по сигналу предпочтений или grader-ов.

Главная мысль: после SFT модель уже умеет отвечать. Preference optimization нужен, когда нужно улучшать не просто формат, а какой ответ модель выбирает как лучший.

SFT учит модель “как вообще отвечать”. RLHF и DPO учат её “какой из нескольких возможных ответов человеку больше понравится или больше подойдёт”.
Не начинайте с preference optimization, если задача ещё не закрыта хорошим SFT baseline. RLHF/DPO не заменяют базовое instruction following; они оптимизируют его дальше.

Короткая версия

МетодЧто делает
RLHFполный pipeline: SFT -> reward model -> RL optimization
DPOнапрямую оптимизирует модель на preference pairs
RFTиспользует grader/reward signal для более сложных задач
KTO и похожиеболее лёгкие preference-style variants

Practical rule

  • нужен исторически полный alignment pipeline и у вас много infra -> RLHF;
  • нужен practical preference baseline -> чаще DPO;
  • задача reasoning-heavy и есть grader -> смотреть в RFT.
ПромптPreference optimization framing
Есть dataset chosen/rejected для customer-support replies. Что логичнее попробовать первым?
Ответ модели

Обычно DPO: у него проще pipeline и меньше operational complexity, чем у полного RLHF.

1. RLHF остаётся фундаментом, но не всегда practical default

Исторически RLHF важен, потому что именно он показал, как переводить человеческие предпочтения в улучшение модели.

Классический pipeline:

  1. SFT;
  2. сбор preference data;
  3. reward model;
  4. RL optimization, часто через PPO.

Этот подход остаётся концептуально сильным, но operationally дорогим:

  • сложнее инфраструктура;
  • больше moving parts;
  • reward model itself needs quality control;
  • RL stage нестабилен и чувствителен к настройке.

Поэтому для многих teams full RLHF уже не выглядит первым practical шагом.

2. DPO стал гораздо более рабочим baseline

Direct Preference Optimization сильно упростил историю.

Он полезен потому, что:

  • не требует отдельной reward model;
  • не требует full RL loop;
  • легче дебажится;
  • лучше вписывается в обычный training stack.

Именно поэтому в 2026 DPO часто воспринимается как default preference optimization path, если у вас есть chosen/rejected data и вы хотите quality lift после SFT.

3. Что preference optimization реально улучшает

Обычно это не “знания”, а:

  • helpfulness;
  • tone preference;
  • refusal behavior;
  • stylistic selection;
  • relative answer quality;
  • ranking among multiple plausible outputs.

То есть DPO/RLHF особенно полезны там, где one correct answer отсутствует, но human preference clearly exists.

4. Почему SFT всё ещё идёт раньше

Preference optimization почти всегда строится на уже нормальном SFT baseline.

Если базовая модель:

  • плохо следует инструкциям;
  • ломает формат;
  • не понимает задачу,

то RLHF/DPO не спасут её магически. Они начнут оптимизировать слабый base behavior.

Поэтому practical order обычно такой:

prompt baseline
-> SFT
-> preference optimization

5. RLHF, DPO и RFT решают разные уровни задачи

RLHF

Полезен, когда:

  • есть серьёзная research/infra capacity;
  • нужен полный control over reward process;
  • задача оправдывает сложный alignment stack.

DPO

Полезен, когда:

  • есть preference pairs;
  • хочется simpler pipeline;
  • нужен practical quality lift after SFT.

RFT

Полезен, когда:

  • есть grader/reward;
  • задача reasoning-heavy;
  • plain preference pairs уже не лучший signal.

Именно поэтому правильнее думать не “RLHF или DPO”, а “какой reward/preference signal у нас вообще есть”.

Без техники
{ "title": "Слабо", "content": "Команда пытается идти в RLHF, хотя нет ни хорошего SFT baseline, ни качественных preference data." }
С техникой
{ "title": "Лучше", "content": "Сначала делают SFT и сбор нормальных preference pairs, а затем выбирают DPO или более сложный path по реальной задаче." }

6. Главный bottleneck — данные предпочтений

Самая болезненная часть не в названии метода, а в качестве preference signal.

Нужны данные, где:

  • chosen действительно лучше rejected;
  • разница осмысленная, а не случайная;
  • signal соответствует product goals;
  • предпочтения consistent across annotators or graders.

Плохие preference data ломают любой метод:

  • RLHF начнёт учиться на плохом reward;
  • DPO начнёт тянуть модель к не тем паттернам.

7. Operational tradeoff в 2026

Здоровая practical рамка такая:

  • RLHF — max flexibility, max complexity;
  • DPO — strong quality/cost/simplicity tradeoff;
  • RFT — сильный путь для reasoning, но требует grader discipline.

Поэтому DPO и родственные методы часто выигрывают не потому, что RLHF “устарел”, а потому, что они лучше совпадают с реальными constraints небольших и средних teams.

8. Как выбирать

Выбирайте по сигналу и по задаче:

У вас естьЧаще выбрать
Хорошие supervised targetsSFT
Chosen/rejected pairsDPO
Reward/grader for complex reasoningRFT
Много infra и сложный alignment research pathRLHF

Плюсы

  • Preference optimization поднимает quality beyond plain SFT
  • DPO даёт более простой и practical путь, чем полный RLHF
  • RFT открывает более сильные reasoning optimization loops
  • В 2026 это уже family of methods, а не один монолитный подход

Минусы

  • Нужны хорошие preference или reward signals
  • Без сильного SFT baseline методы теряют смысл
  • RLHF operationally тяжёлый и сложный в поддержке
  • Плохо собранные preference data быстро ведут к оптимизации не того поведения

Practical order

baseline prompt
-> SFT
-> collect preferences / grader signal
-> choose DPO or RFT
-> compare against SFT baseline

Самая полезная современная мысль: DPO — это не “упрощённый RLHF для бедных”, а нормальный first-choice method для многих preference tasks.

Проверьте себя

1. Что обычно идёт до RLHF или DPO?

2. Почему DPO стал таким популярным?

3. Что важнее названия метода?