OPRO — это идея использовать модель как оптимизатор промптов: она предлагает кандидаты, получает score и итеративно улучшает формулировки. В 2026 OPRO важен не как поиск "магической фразы", а как ранний, но полезный шаблон prompt optimization loop поверх eval dataset.
Вместо ручного перебора формулировок вы строите цикл: предложить prompt -> прогнать на тестах -> измерить качество -> сгенерировать лучше.
OPRO важен тем, что переводит эту работу в нормальный optimization loop с историей кандидатов, score и воспроизводимостью. Даже если сама модель-оптимизатор не идеальна, процесс становится заметно дисциплинированнее.
Полезно помнить, что OPRO не обязан менять весь prompt целиком. Часто выгоднее ограничить search space:
только system instruction;
только rubric section;
только examples block;
только formatting constraints;
только refusal / abstain guidance.
Чем уже и понятнее область мутаций, тем легче интерпретировать результат. Если разрешить оптимизатору переписывать всё подряд, хорошие кандидаты сложнее объяснить, а плохие труднее отладить.
Не запускайте OPRO на плохо определённой задаче. Если команда ещё не договорилась, что считать хорошим ответом, optimization loop начнёт оптимизировать шум.