Factored Verification — это подход, в котором reasoning или решение раскладывают на отдельные шаги и проверяют каждый шаг отдельно. Вместо грубого verdict вида "всё решение правильное / неправильное" появляется более полезный сигнал: где именно модель ошиблась и можно ли починить только локальный участок reasoning.
Если финальный ответ неверный, гораздо полезнее знать "сломался шаг 3", чем просто получить красный крестик на всём решении.
Если вы оцениваете только итог, то теряете много информации:
где именно модель ушла не туда;
был ли ошибочным только один шаг;
можно ли починить решение локально;
насколько reasoning был в целом хорош, несмотря на один сбой.
Factored Verification даёт более богатый debug signal и лучше подходит для repair loops.
Это особенно важно в системах, где reasoning длинный и дорогостоящий. Если шаги 1-4 корректны, а ломается только шаг 5, нет смысла выбрасывать всё решение целиком.
Главное преимущество техники не только в "большей детализации". Оно в том, что она превращает verification из бинарной кнопки в рабочий diagnostic layer:
можно увидеть point of failure;
можно отделить healthy prefix от broken suffix;
можно repair only affected branch;
можно строить более дешёвые re-run loops.
Именно поэтому техника особенно ценна в длинных reasoning workflows, а не в задачах, где есть только один короткий ответ.
Не каждый неправильный шаг можно починить изолированно. Factored Verification особенно полезна там, где между шагами есть относительно ясная зависимость и можно отделить healthy prefix от broken suffix.
Практический пример:
в вычислении ошибка на шаге 4 действительно позволяет оставить шаги 1-3 без изменений;
в policy reasoning ранняя неверная интерпретация правила может отравить почти все последующие выводы;
в агентном плане один неверный subgoal иногда требует перепроверить весь downstream branch, а не только один пункт.
То есть factorization полезна не сама по себе, а в связке с пониманием dependency graph между шагами.
Разбей вывод аналитика на subclaims и проверь каждый: подтверждён данными, частично подтверждён или не подтверждён.
Ответ модели
Subclaim 1: рост MAU — подтверждён.
Subclaim 2: падение ARPU вызвано скидками — частично подтверждён.
Subclaim 3: churn растёт из-за support lag — не подтверждён доступными данными.
Если шаги выбраны слишком крупно, вы теряете главный смысл factorization. Если слишком мелко — платите слишком много за проверку и тонете в шуме. Нужна разумная granularity.
Другие ошибки:
путать step verification с final-answer verification;
не хранить dependency graph между шагами;
использовать технику там, где reasoning почти не декомпозируется;
Если шаги дорогие, кешируйте уже проверенный корректный prefix и перезапускайте только affected suffix. Тогда Factored Verification становится не просто диагностикой, а механизмом экономии на repair loops.