Reflexion — это техника, в которой модель или агент не просто переписывает текущий ответ, а учится между попытками через verbal feedback. После ошибки агент формулирует lesson learned, сохраняет его в память и использует на следующем ходе. В 2026 Reflexion уже полезнее рассматривать не как чистый prompt trick, а как agentic improvement loop на стыке prompting, memory и evaluation.
Self-Refine улучшает один текст. Reflexion пытается не повторить ту же ошибку в следующей попытке.
Попытка -> feedback -> reflection -> memory -> новая попытка
Главный сдвиг здесь в том, что Reflexion работает не только внутри одного ответа, а между эпизодами. Это уже не просто редактура, а простая форма обучения на ошибках.
Поэтому Reflexion особенно релевантен агентам, а не обычным статeless chat-ответам. Там, где есть несколько ходов, инструменты и retries, verbal feedback становится реальным механизмом накопления опыта.
Если действие в браузере не сработало, не повторяй тот же клик вслепую. Сначала сформулируй, почему попытка могла провалиться, затем выбери новую стратегию.
Ответ модели
Reflection: кнопка неактивна до заполнения обязательного поля. Next attempt: сначала заполнить поле company_name, потом повторить submit.
Если агент пишет в память всё подряд, память быстро превращается в свалку. Reflexion работает только при строгой memory hygiene: короткие lessons, write policy и периодическая чистка.
Другие ошибки:
хранить полные traces вместо lessons;
не отделять общие правила от одноразового шума;
не чистить устаревшие reflections;
не проверять, что reflection реально улучшила следующую попытку.