Context Compression

Context Compression в 2026: compaction, semantic deduplication, selective inclusion и query-aware compression для LLM-приложений.

Context Compression в 2026 полезно понимать не как “магическое ужатие текста”, а как системное уменьшение input noise без потери нужного signal. Сжатие контекста нужно тогда, когда в assembled context уже остаются только условно полезные слои, но они всё ещё слишком объёмны, дублируются или плохо упакованы.

То есть compression идёт после хорошего routing и budgeting, а не вместо них.

Сначала вы решаете, что вообще положить в чемодан. И только потом начинаете складывать вещи компактнее. Если чемодан заполнен случайным мусором, вакуумный пакет не спасёт.

Техника	Что делает	Где полезна
Compaction	сжимает старый state или transcript	multi-turn диалоги
Semantic deduplication	удаляет почти-дубли	RAG chunks, KB результаты
Selective inclusion	оставляет только релевантные фрагменты	длинные документы и search output
Query-aware compression	сжимает с учётом текущего вопроса	long-context QA
Prompt compression	уплотняет instructions/examples	stable prefixes и long prompts

1. Compression начинается не с суммаризации, а с удаления лишнего

Самый полезный first step — не суммаризировать каждый длинный блок, а проверить:

нет ли дубликатов;
нет ли слабых retrieval chunks;
нет ли избыточного transcript;
нет ли огромного сырого tool output;
нет ли повторов между instructions, memory и retrieved docs.

Очень часто “compression” на практике означает просто лучше отобранный context.

2. Compaction

Compaction — лучший вид compression для multi-turn state. Его задача не сделать текст “короче вообще”, а превратить длинный transcript в короткое рабочее состояние:

цель;
решения;
ограничения;
открытые вопросы;
последние важные результаты.

Это почти всегда полезнее, чем держать старые сообщения дословно.

Без техники

{ "title": "Плохо", "content": "30 старых сообщений продолжают жить в context как transcript." }

С техникой

{ "title": "Лучше", "content": "Старая часть превращена в compact state: decisions, constraints, open questions, key facts." }

3. Semantic Deduplication

В retrieval-heavy системах контекст часто раздувают почти одинаковые chunks:

одна и та же policy в разных документах;
FAQ и docs с одинаковыми формулировками;
похожие search results;
повторяющиеся snippets из codebase.

Semantic deduplication удаляет такие near-duplicates и оставляет только наиболее полезные фрагменты.

Практически это даёт сразу три эффекта:

меньше токенов;
меньше повторяющегося шума;
меньше lost-in-the-middle.

4. Selective Inclusion

Иногда документ слишком длинный не потому, что он плохой, а потому, что для текущего вопроса в нём важны только отдельные фрагменты.

Selective inclusion значит:

не тащить весь документ целиком;
оставлять нужные section-ы, paragraphs или sentences;
включать только query-relevant parts.

Это особенно полезно для:

документации;
help center;
contracts/policies с длинной структурой;
browser/search results.

5. Query-aware compression

Сильнее всего compression работает, когда учитывает не общий смысл текста, а конкретный текущий вопрос. Именно для этого обычно и полезны подходы вроде LongLLMLingua: сначала понять, какие части контекста реально важны под этот запрос, и только потом их сжимать.

Это лучше, чем “универсальный summary на все случаи”, потому что один и тот же документ может быть релевантен по-разному для разных вопросов.

6. Prompt Compression

Отдельный класс задач — уплотнение instructions, few-shot examples и длинных stable prefixes.

Здесь compression полезен, когда:

policy blocks разрослись;
examples повторяют друг друга;
один и тот же contract объяснён слишком многословно.

Но есть важное ограничение: prompt compression не должен разрушать:

safety constraints;
schema contracts;
critical wording;
explicit refusal behavior.

7. Что лучше не сжимать агрессивно

Есть типы контента, где compression легко ломает correctness:

юридически значимые формулировки;
точные числа и табличные данные;
код и syntax-sensitive content;
machine-readable schemas;
tool arguments, где важна точность.

Плохой compression может сохранить “общий смысл”, но потерять то, ради чего контекст вообще включали: точную цифру, исключение в policy, редкую оговорку или обязательное поле schema.

8. Compression и caching не одно и то же

Compression уменьшает объём контекста.

Caching не уменьшает объём, а уменьшает стоимость повторного использования стабильного prefix.

На практике они хорошо сочетаются:

сначала уплотняете stable blocks;
потом делаете их cache-friendly;
dynamic tail оставляете без лишнего шума.

9. Compression и RAG

Для RAG-систем compression обычно работает лучше всего в таком порядке:

retrieval;
rerank;
deduplicate;
selective inclusion;
compaction/compression при необходимости.

То есть compression должен быть не заменой retrieval quality, а его последним cleanup-слоем.

10. Как измерять пользу compression

Минимальный набор метрик:

11. Healthy compression pipeline

Самый практичный pipeline обычно такой:

remove obvious junk;
deduplicate near-duplicates;
include only relevant fragments;
compact long history/state;
query-aware compress only if still too large.

То есть лучший compression — почти всегда многоступенчатый, а не один “супералгоритм”.

Плюсы

Снижает cost и latency
Улучшает signal-to-noise ratio
Помогает защитить output reserve
Особенно полезен для RAG, multi-turn и long-context workloads

Минусы

Плохой compression может выкинуть критичные детали
Нуждается в evals, а не только в красивом compression ratio
Сложные query-aware методы добавляют собственный compute overhead
Не заменяет хороший routing и retrieval quality

Пример простого compression pipeline

def compress_context(
    chunks: list[dict],
    max_chunks: int = 4,
) -> list[dict]:
    ranked = sorted(chunks, key=lambda c: c["score"], reverse=True)

    # 1. dedup by normalized text key
    seen = set()
    unique = []
    for chunk in ranked:
        key = chunk["text"].strip().lower()[:300]
        if key in seen:
            continue
        seen.add(key)
        unique.append(chunk)

    # 2. keep top useful chunks only
    trimmed = unique[:max_chunks]

    # 3. selectively shorten long chunks
    for chunk in trimmed:
        if len(chunk["text"]) > 2000:
            chunk["text"] = chunk["text"][:2000]

    return trimmed

Даже такой примитивный pipeline уже даёт три здоровых свойства:

убирает явные повторы;
ограничивает общее число chunks;
не тянет длинные фрагменты целиком без разбора.

Проверьте себя

1. Когда compression приносит наибольшую пользу?

{ "text": "Когда он идёт после routing и отбора, а не вместо них", "correct": true, "explanation": "Верно. Сначала надо убрать ненужное, а уже потом сжимать полезное." } { "text": "Когда им заменяют retrieval quality", "correct": false, "explanation": "Compression не лечит плохой retrieval." } { "text": "Когда сжимают вообще всё максимально агрессивно", "correct": false, "explanation": "Агрессивное сжатие без evals быстро ломает correctness." }

2. Что чаще всего даёт semantic deduplication?

{ "text": "Удаление почти одинаковых chunks и уменьшение повторов", "correct": true, "explanation": "Да. Это один из самых полезных и безопасных видов compression." } { "text": "Замену output reserve", "correct": false, "explanation": "Deduplication не отменяет budget reserve." } { "text": "Автоматическое улучшение safety", "correct": false, "explanation": "Это не её задача." }

3. Что опасно агрессивно сжимать?

{ "text": "Точные числа, код, schemas и юридически значимые формулировки", "correct": true, "explanation": "Верно. Именно там compression особенно легко ломает correctness." } { "text": "Повторяющиеся retrieval chunks", "correct": false, "explanation": "Как раз их чаще всего полезно чистить." } { "text": "Шумные transcript tails", "correct": false, "explanation": "Их обычно лучше compact-ить или убирать." }

Источники

Context Engineering в продакшене