Context Compression в 2026 полезно понимать не как “магическое ужатие текста”, а как системное уменьшение input noise без потери нужного signal. Сжатие контекста нужно тогда, когда в assembled context уже остаются только условно полезные слои, но они всё ещё слишком объёмны, дублируются или плохо упакованы.
То есть compression идёт после хорошего routing и budgeting, а не вместо них.
Самый полезный first step — не суммаризировать каждый длинный блок, а проверить:
Очень часто “compression” на практике означает просто лучше отобранный context.
Compaction — лучший вид compression для multi-turn state. Его задача не сделать текст “короче вообще”, а превратить длинный transcript в короткое рабочее состояние:
Это почти всегда полезнее, чем держать старые сообщения дословно.
В retrieval-heavy системах контекст часто раздувают почти одинаковые chunks:
Semantic deduplication удаляет такие near-duplicates и оставляет только наиболее полезные фрагменты.
Практически это даёт сразу три эффекта:
Иногда документ слишком длинный не потому, что он плохой, а потому, что для текущего вопроса в нём важны только отдельные фрагменты.
Selective inclusion значит:
Это особенно полезно для:
Сильнее всего compression работает, когда учитывает не общий смысл текста, а конкретный текущий вопрос. Именно для этого обычно и полезны подходы вроде LongLLMLingua: сначала понять, какие части контекста реально важны под этот запрос, и только потом их сжимать.
Это лучше, чем “универсальный summary на все случаи”, потому что один и тот же документ может быть релевантен по-разному для разных вопросов.
Отдельный класс задач — уплотнение instructions, few-shot examples и длинных stable prefixes.
Здесь compression полезен, когда:
Но есть важное ограничение: prompt compression не должен разрушать:
Есть типы контента, где compression легко ломает correctness:
Compression уменьшает объём контекста.
Caching не уменьшает объём, а уменьшает стоимость повторного использования стабильного prefix.
На практике они хорошо сочетаются:
Для RAG-систем compression обычно работает лучше всего в таком порядке:
То есть compression должен быть не заменой retrieval quality, а его последним cleanup-слоем.
Минимальный набор метрик:
Самый практичный pipeline обычно такой:
То есть лучший compression — почти всегда многоступенчатый, а не один “супералгоритм”.