Thread of Thought, или ThoT, — это техника, в которой модель сначала проходит по длинному контексту управляемыми частями, извлекает важное из каждого фрагмента и только потом формирует финальный answer. В 2026 это особенно полезно на длинных документах, протоколах, отчётах и любых chaotic contexts, где direct answer часто пропускает середину или смешивает сигналы.
Если документ длинный и запутанный, лучше не отвечать сразу. Сначала нужно "размотать нить" по частям и собрать ключевые факты.
Пройди по документу по логическим частям, из каждой части выдели только релевантные факты, затем ответь на вопрос.
Вопрос: какие дедлайны и владельцы задач были зафиксированы в протоколе?
Ответ модели
Часть 1: обсуждение целей квартала — дедлайнов нет.
Часть 2: решение по сайту — владелец Марина, дедлайн 15 апреля.
Часть 3: интеграция CRM — владелец Илья, дедлайн 22 апреля.
Часть 4: финансы — дедлайнов нет.
Ответ: дедлайн 15 апреля по сайту (Марина), дедлайн 22 апреля по CRM-интеграции (Илья).
Есть вопросы, где нужный ответ собирается из кусочков:
в начале документа есть цель;
в середине есть исключение;
в конце есть дедлайн или финальное решение.
Direct answer часто тянется к самым ярким или последним фрагментам. ThoT полезен именно тем, что дисциплинирует проход по контексту и снижает риск, что одна секция документа задавит все остальные.
ThoT не заменяет preprocessing. Лучший pipeline часто выглядит так:
документ делится на логические секции;
retrieval или file search поднимает релевантные куски;
внутри выбранного контекста ThoT проходит по секциям question-aware способом;
финальный synthesis собирает answer и evidence.
Это обычно лучше двух крайностей:
дать модели весь документ без структуры;
дать только один кусок и потерять картину целиком.
Самый полезный вариант ThoT — question-aware traversal. Не "перескажи документ", а "проходи по частям и отмечай только то, что нужно для ответа на конкретный вопрос".
ThoT ломается, когда модель просят пройти весь документ по частям, но не ограничивают, что именно считать релевантным. Тогда техника превращается в дорогой summary вместо focused analysis.
конфликтующие ответы по одному и тому же документу;
hallucinated synthesis без опоры на текст.
Если этого не происходит, а latency вырос, значит проблема, скорее всего, не в способе чтения контекста, а в retrieval, parsing или слишком общем вопросе.