Когда промптинга недостаточно

Когда в 2026 стоит переходить от prompt engineering к fine-tuning: behavior gaps, format reliability, eval plateaus и economics длинных промптов.

В 2026 вопрос “пора ли в fine-tuning?” лучше ставить не как “модель недостаточно умная”, а как prompt-and-retrieval stack больше не закрывает нужную стабильность поведения. Fine-tuning нужен не потому, что вы хотите “добавить знаний в модель вообще”, а потому, что вам нужен более устойчивый behavior, format adherence или task-specific reliability, чем удаётся получить промптом и обычными guards.

Главная practical идея: сначала выжимают максимум из prompting, structured outputs, tools, retrieval и evals, и только потом переходят к fine-tuning.

Промптинг — это объяснить задачу модели словами прямо во время запроса. Fine-tuning — это показать много хороших примеров заранее, чтобы нужное поведение стало для модели более естественным и стабильным.
Не идите в fine-tuning только потому, что ответ “иногда плохой”. Сначала нужно понять, где именно сбой: в знаниях, в retrieval, в плохих инструкциях, в schema validation или в самом поведении модели. Fine-tuning лечит не всё подряд.

Короткая версия

О fine-tuning обычно стоит думать, когда:

  1. Промпт уже хороший, но качество упёрлось в потолок.
  2. Нужна высокая стабильность формата на большом потоке.
  3. Нужен устойчивый стиль или voice, а не просто разовая удача.
  4. Промпт разрастается до дорогого и хрупкого монстра.
  5. Вы измерили это на evals, а не просто раздражены несколькими плохими ответами.

Что fine-tuning особенно хорошо улучшает

ЗадачаFine-tuning полезен?
Стиль, tone, wordingДа
Строгий формат ответаДа
Классификация и extractionДа
Актуальные знания из часто меняющейся базыНет, здесь чаще нужен RAG
Источники и citationsОбычно нет, здесь важнее retrieval
ПромптFine-tuning use case
Нужно стабильно классифицировать тикеты в один и тот же JSON-формат на 100 000 запросов в день.
Ответ модели

Это сильный кандидат на fine-tuning: задача узкая, формат фиксированный, качество и economics длинного промпта критичны.

Первый вопрос перед fine-tuning

Не “можем ли мы дообучить модель?”, а:

промпт, retrieval и output constraints уже действительно исчерпаны?

1. Когда проблема ещё не в fine-tuning

Очень часто источник проблемы другой:

  • плохой системный промпт;
  • нет few-shot примеров;
  • schema / structured outputs не используются;
  • retrieval даёт шум;
  • нет output validation;
  • задача вообще не сформулирована как узкая и повторяемая.

Если вы этого ещё не сделали, fine-tuning почти наверняка преждевременен.

По current OpenAI guidance порядок здоровый:

  1. собрать evals;
  2. улучшить prompt;
  3. убедиться, что задача действительно повторяемая;
  4. только потом инвестировать в training data.

2. Главный признак: поведение важно сильнее, чем знания

Fine-tuning особенно оправдан, когда вы хотите менять не “что модель знает”, а как именно она отвечает:

  • в каком формате;
  • в каком стиле;
  • с какой степенью лаконичности;
  • как она классифицирует;
  • как выбирает структуру и phrasing;
  • насколько стабильно соблюдает internal rubric.

Если же главная проблема — отсутствие свежих или приватных данных, это чаще не fine-tuning issue, а retrieval issue.

3. Prompt plateaus — самый честный сигнал

Самый полезный practical сигнал: вы уже:

  • сделали хороший system/developer prompt;
  • попробовали few-shot;
  • включили structured outputs или tool schema;
  • настроили validation;
  • всё это проверили на eval-наборе,

но метрика всё равно не дотягивает.

Это и есть момент, когда fine-tuning перестаёт быть “интересной идеей” и становится логичным следующим шагом.

Без техники
{ "title": "Промпт ещё сырой", "content": "Инструкции плавают, few-shot нет, structured outputs не включены. Fine-tuning тут только зафиксирует плохой baseline." }
С техникой
{ "title": "Промпт уже сильный", "content": "Промпт и evals доведены, но формат или классификация всё равно нестабильны. Вот здесь fine-tuning уже оправдан." }

4. Где fine-tuning особенно полезен

Чаще всего:

  • classification;
  • extraction;
  • formatting-heavy generation;
  • brand / support / legal style;
  • domain-specific instruction following;
  • reducing prompt length for a repeated workflow.

OpenAI current docs прямо подают SFT как сильный инструмент для:

  • classification;
  • nuanced translation;
  • specific output formats;
  • исправления instruction-following failures.

Это хороший ориентир: fine-tuning лучше работает там, где есть много хороших демонстраций правильного поведения.

5. Где fine-tuning обычно не лучший ответ

Обычно не лучший вариант, если:

  • знания часто обновляются;
  • нужны citations;
  • ответ должен опираться на свежие документы;
  • задача меняется каждую неделю;
  • у вас нет хорошего и стабильного датасета.

В таких случаях чаще выигрывают:

  • RAG;
  • better prompting;
  • structured outputs;
  • output validators;
  • hybrid approach.

6. Economics длинного промпта тоже имеют значение

Иногда fine-tuning нужен не ради качества “вообще”, а ради операционной экономики.

Если каждый запрос тащит:

  • длинный system prompt;
  • длинный policy block;
  • 10-20 демонстраций;
  • повторяющиеся format rules,

то даже умеренный improvement после fine-tuning может окупиться за счёт:

  • меньшего prompt size;
  • меньшей latency;
  • более короткого context path;
  • меньшего числа downstream validation failures.

Но это надо считать на реальном объёме, а не по ощущению.

7. Данные важнее идеи

Fine-tuning имеет смысл только если есть dataset, который:

  • отражает реальные user inputs;
  • содержит действительно “gold” outputs;
  • не состоит из случайных красивых примеров;
  • покрывает реальные edge cases.

Current OpenAI docs прямо рекомендуют начинать хотя бы с нескольких десятков качественных примеров и обязательно иметь holdout eval set.

Главное правило:

плохой training set не исправляет плохой продукт, а масштабирует его ошибки.

8. Чеклист перед переходом

9. Practical decision rule

Если коротко:

  • нужны свежие знания -> сначала RAG;
  • нужен устойчивый стиль, формат или классификация -> смотрите в fine-tuning;
  • нужно и то, и другое -> чаще всего fine-tuning + RAG;
  • нет evals и датасета -> fine-tuning пока рано.

Плюсы

  • Даёт более устойчивое поведение на узкой задаче
  • Помогает стабилизировать формат, стиль и classification quality
  • Может сократить длину промпта и снизить latency
  • Хорошо окупается на повторяемых workloads

Минусы

  • Не решает проблему свежих знаний и citations
  • Требует качественного датасета и нормальных evals
  • Легко преждевременно пойти в training вместо улучшения baseline
  • Изменение требований ведёт к новому циклу подготовки данных

Минимальная mental model

bad results
-> fix prompt/retrieval/schema first
-> measure on evals
-> if behavior still plateaus
-> collect training examples
-> run SFT
-> compare against baseline

Практически fine-tuning в 2026 имеет смысл подавать как optimization layer after eval-ready prompt stack, а не как первый инструмент кастомизации.

Проверьте себя

1. Какой самый честный сигнал, что пора думать о fine-tuning?

2. Что fine-tuning обычно улучшает лучше всего?

3. Что должно быть до начала fine-tuning?