OpenAI fine-tuning в 2026 уже не стоит описывать как один общий “запуск обучения на JSONL”. Сейчас это целое семейство model optimization paths:
SFT для обучения на примерах;DPO для preference optimization;RFT для reasoning models с grader-based feedback;vision fine-tuning для задач с изображениями.Поэтому practical вопрос уже не просто “дообучать или нет”, а какой именно tuning method соответствует типу задачи.
SFT учит модель по примерам правильного ответа, DPO учит предпочитать лучший вариант из нескольких, а RFT учит улучшаться по сигналу награды или grader-а на более сложных reasoning-задачах.SFT, потому что это самый понятный и управляемый путь. DPO и RFT нужны, когда простой supervised path уже не закрывает задачу.Раньше fine-tuning часто подавали как один режим: загрузили training file, обучили chat model, получили новый model id.
В 2026 official framing уже шире:
eval-first;Поэтому guide по OpenAI fine-tuning должен объяснять не только API, но и decision logic.
Supervised fine-tuning остаётся главным starting point.
Он особенно хорош для задач, где есть:
Типичные примеры:
SFT полезен потому, что:
Direct Preference Optimization полезен там, где “правильный ответ” не всегда один, но вы можете сказать, какой из двух ответов лучше.
Это особенно важно для:
То есть DPO useful, когда у вас есть:
Reinforcement fine-tuning в current OpenAI framing особенно интересен для reasoning-heavy задач, где можно определить:
Это уже более серьёзный engineering path:
Поэтому RFT не является default upgrade после SFT. Он нужен, когда задача действительно выигрывает от feedback-optimized reasoning behavior.
OpenAI current docs отдельно разводят vision fine-tuning, и это важно:
Но логика та же:
Мультимодальность не отменяет требований к качеству данных.
Практически сильный OpenAI fine-tuning workflow сегодня выглядит так:
Неудачный fine-tuning обычно связан не с API, а с одним из этих факторов:
Именно поэтому best practices у OpenAI так сильно упирают в:
Сильнее всего он окупается, когда:
Менее оправдан, когда:
Тогда уже логично смотреть в сторону LoRA/QLoRA.