Online evals в 2026 нужны не для замены офлайн-набора, а для закрытия другого вопроса: что происходит на реальном трафике после релиза. Офлайн eval отвечает, не сломали ли вы известные сценарии. Online eval показывает, как система ведёт себя на живых запросах, длинных хвостах, редких комбинациях и настоящих пользовательских ожиданиях.
Это особенно важно для LLM-продуктов, потому что production деградация часто приходит не как явный crash, а как:
Офлайн eval хорош для:
Но у него есть слепые зоны:
Именно здесь online eval даёт signal, которого нет в статическом dataset.
Самый очевидный слой:
Но сырой feedback сам по себе не очень полезен. Он становится ценным, когда привязан к trace и структуре workflow.
LLM-as-judge и rubric scoring можно запускать не только офлайн, но и на sampled production traces:
Иногда лучший eval-сигнал - не текстовая оценка, а бизнес-исход:
Если пользователь исправил ответ, это часто сигнал сильнее, чем thumbs down. Correction показывает не только dissatisfaction, но и более желаемый target.
Хороший online eval не означает "катим на всех и потом смотрим".
Практически полезны два режима:
Новая версия идёт на маленькую долю реальных пользователей.
Подходит, когда:
Новая версия получает копию запроса, но не показывает ответ пользователю.
Подходит, когда:
Shadow особенно полезен для routing, tool selection и agent traces, где ошибка может быть дорогой ещё до того, как ответ увидит пользователь.
Современный online eval почти всегда строится вокруг trace-linked данных:
trace_id;run_id;Это важно, потому что один плохой answer может быть вызван разными причинами:
Без trace link вы не узнаете, какой слой виноват.
Один общий online score почти всегда скрывает главное. Лучше разбивать сигнал по осям:
Иначе средний показатель будет нормальным, даже если у вас quietly ломается один дорогой сценарий.
Лучший online eval создаёт не только дашборд, но и pipeline пополнения test set.
Практический цикл:
Именно так online eval перестаёт быть просто мониторингом и становится системой постоянного улучшения.
Есть минус, но нет trace, route и retrieved docs.
Оценка блокирует user flow вместо асинхронного фонового контура.
Сигнал идёт только от небольшой группы очень активных пользователей.
Команда либо оценивает всё подряд и тратит бюджет, либо почти ничего не оценивает на hard slices.
Автогрейдер начинает незаметно drift-ить от product reality.
Минимальный online eval dashboard обычно включает:
Отдельно полезно считать time-to-learn: сколько проходит от появления нового failure mode до его попадания в regression suite.