OpenAI Fine-tuning: практический гайд

OpenAI fine-tuning в 2026: SFT, DPO, RFT, vision fine-tuning, eval-first workflow и когда дообучение лучше длинного промпта.

OpenAI fine-tuning в 2026 уже не стоит описывать как один общий “запуск обучения на JSONL”. Сейчас это целое семейство model optimization paths:

SFT для обучения на примерах;
DPO для preference optimization;
RFT для reasoning models с grader-based feedback;
vision fine-tuning для задач с изображениями.

Поэтому practical вопрос уже не просто “дообучать или нет”, а какой именно tuning method соответствует типу задачи.

Если очень грубо: SFT учит модель по примерам правильного ответа, DPO учит предпочитать лучший вариант из нескольких, а RFT учит улучшаться по сигналу награды или grader-а на более сложных reasoning-задачах.

Не начинайте с самой сложной техники. В большинстве реальных кейсов сначала пробуют SFT, потому что это самый понятный и управляемый путь. DPO и RFT нужны, когда простой supervised path уже не закрывает задачу.

Метод	Когда нужен
SFT	fixed format, style, classification, extraction
DPO	когда есть preference pairs и хочется улучшить quality beyond plain examples
RFT	когда задача сложная, reasoning-heavy и есть grader/reward signal
Vision fine-tuning	когда вход включает изображения

1. Почему current OpenAI framing шире старого “fine-tune job”

Раньше fine-tuning часто подавали как один режим: загрузили training file, обучили chat model, получили новый model id.

В 2026 official framing уже шире:

есть разные objective families;
акцент смещён в eval-first;
важно не просто “натренировать”, а выбрать правильный optimization path;
distillation и graders тоже становятся частью общей истории optimization.

Поэтому guide по OpenAI fine-tuning должен объяснять не только API, но и decision logic.

2. SFT — default path

Supervised fine-tuning остаётся главным starting point.

Он особенно хорош для задач, где есть:

понятный input;
хороший target output;
относительно узкий task shape;
чёткая метрика качества.

Типичные примеры:

classification;
structured extraction;
translation in a particular style;
support response formatting;
domain-specific instruction following.

SFT полезен потому, что:

проще объясняется;
проще дебажится;
проще сравнивается с baseline;
не требует preference pairs или reward signal.

3. DPO нужен, когда examples уже недостаточно

Direct Preference Optimization полезен там, где “правильный ответ” не всегда один, но вы можете сказать, какой из двух ответов лучше.

Это особенно важно для:

nuanced style quality;
answer ranking;
safety / refusal nuance;
response helpfulness beyond raw format accuracy.

То есть DPO useful, когда у вас есть:

baseline model outputs;
pairwise preferences;
желание сдвинуть модель в сторону лучшего ответа без full RL stack.

4. RFT — уже не просто “ещё одно обучение”

Reinforcement fine-tuning в current OpenAI framing особенно интересен для reasoning-heavy задач, где можно определить:

grader;
reward signal;
pass/fail criterion;
quality function, которую можно оптимизировать.

Это уже более серьёзный engineering path:

нужен хороший evaluator;
нужен measurement loop;
важнее task design;
выше риск оптимизировать не ту метрику.

Поэтому RFT не является default upgrade после SFT. Он нужен, когда задача действительно выигрывает от feedback-optimized reasoning behavior.

5. Vision fine-tuning расширяет scope, но не отменяет дисциплину данных

OpenAI current docs отдельно разводят vision fine-tuning, и это важно:

задачи могут включать изображения;
датасет уже не только текстовый;
важно, чтобы examples отражали реальный multimodal workload.

Но логика та же:

сначала baseline;
потом evals;
потом tuning.

Мультимодальность не отменяет требований к качеству данных.

6. Eval-first — самая важная часть

Практически сильный OpenAI fine-tuning workflow сегодня выглядит так:

сформировать baseline prompt;
собрать eval set;
понять exact failure modes;
выбрать SFT/DPO/RFT;
обучить;
сравнить с baseline не “на глаз”, а по метрике.

Без техники

{ "title": "Слабо", "content": "Запустили fine-tuning job без holdout-набора и потом субъективно смотрим, стало ли красивее." }

С техникой

{ "title": "Сильнее", "content": "Есть baseline, holdout eval, понятный failure mode и выбранный под него tuning method." }

7. Что чаще всего ломает результат

Неудачный fine-tuning обычно связан не с API, а с одним из этих факторов:

слабый dataset;
inconsistent labels;
нет holdout set;
task слишком широкий;
expectations перепутаны: пытаются решить retrieval problem через tuning;
выбрали слишком сложный method раньше времени.

Именно поэтому best practices у OpenAI так сильно упирают в:

data quality;
data quantity;
consistency;
hyperparameter iteration;
test split.

8. Когда OpenAI fine-tuning особенно оправдан

Сильнее всего он окупается, когда:

вы уже в OpenAI ecosystem;
задача узкая и повторяемая;
важно сократить промпт;
нужен managed path без own training infra;
есть eval loop и нормальный dataset.

Менее оправдан, когда:

нужно много low-level control;
хочется экспериментировать с adapters и merge paths;
задача завязана на self-hosted open models;
нужен дешёвый локальный training stack.

Тогда уже логично смотреть в сторону LoRA/QLoRA.

Плюсы

Managed optimization path без своей training infrastructure
В 2026 уже есть несколько tuning methods под разные task shapes
Хорошо подходит для узких production tasks с нормальными evals
Удобен командам, которые уже работают в OpenAI API stack

Минусы

Требует чёткого понимания failure mode и правильного выбора метода
Не решает retrieval/freshness problem
Меньше low-level control, чем в open-source training stack
Без качественного датасета и holdout eval tuning быстро превращается в шум

Minimal SFT example

from openai import OpenAI

client = OpenAI()

job = client.fine_tuning.jobs.create(
    training_file="file-abc123",
    model="gpt-4o-mini-2024-07-18",
    method={"type": "supervised"},
)

Но сама команда должна быть не первой мыслью, а последней:

baseline prompt
-> evals
-> choose method
-> train
-> compare to baseline

Проверьте себя

1. Какой метод fine-tuning чаще всего стоит пробовать первым?

{ "text": "SFT", "correct": true, "explanation": "Верно. Это самый понятный и управляемый starting point." } { "text": "RFT", "correct": false, "explanation": "RFT обычно нужен позже и для более специализированных задач." } { "text": "Сразу все методы одновременно", "correct": false, "explanation": "Это усложняет отладку и не даёт понять, что реально сработало." }

2. Когда DPO особенно полезен?

{ "text": "Когда у вас есть pairwise preferences и нужно сдвинуть модель к более предпочтительным ответам", "correct": true, "explanation": "Да. Это одна из самых полезных mental models для DPO." } { "text": "Когда главная проблема в свежих документах", "correct": false, "explanation": "Это скорее retrieval problem." } { "text": "Когда нет ни evals, ни датасета", "correct": false, "explanation": "Тогда tuning вообще преждевременен." }

3. Что самое важное в OpenAI fine-tuning workflow?

{ "text": "Eval-first подход и правильный выбор метода под task shape", "correct": true, "explanation": "Именно это отличает зрелый workflow от случайного запуска job." } { "text": "Сразу выбрать самую дорогую модель", "correct": false, "explanation": "Это не заменяет quality dataset и правильный method choice." } { "text": "Использовать tuning вместо retrieval", "correct": false, "explanation": "Это частая архитектурная ошибка." }

Источники

Model Distillation: как сделать маленькую модель умной

RLHF и DPO: выравнивание моделей