Chain of Density (цепочка плотности) — техника итеративной суммаризации, при которой модель пишет несколько версий резюме одинаковой длины, каждый раз добавляя пропущенные ключевые сущности и факты. С каждой итерацией текст становится информативнее при том же объёме.
В 2026 году CoD удобнее понимать не как “ещё один способ суммаризировать”, а как controlled editing workflow. Модель не просто пересказывает текст, а шаг за шагом перераспределяет ограниченный space budget в пользу более полезных деталей.
Техника была предложена исследователями из Columbia University и Salesforce в 2023 году (Adams et al.). Они обнаружили проблему: стандартные резюме от языковых моделей слишком «разреженные» — много общих слов, мало конкретики. Люди же предпочитают плотные, информативные резюме.
Идея CoD проста: вместо одного запроса на суммаризацию, модель проходит 5 итераций. На каждой итерации она добавляет 1-3 пропущенные ключевые сущности (entity), не увеличивая длину текста. Для этого приходится перефразировать, сжимать, убирать воду — и с каждым шагом резюме становится плотнее.
Текст статьи: «Яндекс объявил о запуске YandexGPT 4 — новой версии языковой модели с поддержкой контекстного окна в 32 000 токенов. Модель обучена на мультиязычных данных с акцентом на русский язык. По словам руководителя направления Алексея Гусева, YandexGPT 4 показывает улучшение на 35% в задачах генерации текста на русском по сравнению с предыдущей версией. Модель доступна через API Yandex Cloud и интегрирована в Алису. Стоимость составляет 0.2 руб. за 1000 токенов. Яндекс также анонсировал fine-tuning API для корпоративных клиентов, позволяющий дообучать модель на собственных данных.» Выполни Chain of Density: напиши 5 резюме длиной ровно ~40 слов каждое. Каждое следующее резюме плотнее предыдущего — добавляй 1-3 пропущенные ключевые сущности, не увеличивая длину.
Резюме 1 [сущности: Яндекс, YandexGPT] Яндекс представил новую версию своей языковой модели YandexGPT, которая значительно улучшена по сравнению с предыдущей. Модель стала доступна разработчикам и пользователям через различные каналы компании.
Резюме 2 [+YandexGPT 4, русский язык, API] Яндекс выпустил YandexGPT 4 — языковую модель с фокусом на русский язык. Модель доступна через API и показывает заметное улучшение качества генерации текста. Разработчики могут интегрировать её в свои продукты.
Резюме 3 [+32K токенов, +35%, Yandex Cloud] Яндекс запустил YandexGPT 4 с контекстным окном 32 000 токенов и улучшением на 35% в генерации русского текста. Модель доступна через API Yandex Cloud. Акцент на мультиязычность с приоритетом русского языка.
Резюме 4 [+Алиса, 0.2 руб/1K токенов, Алексей Гусев] YandexGPT 4 с окном 32K токенов улучшает генерацию русского текста на 35%, сообщил Алексей Гусев. Модель интегрирована в Алису, доступна через API Yandex Cloud по цене 0.2 руб. за 1000 токенов.
Резюме 5 [+fine-tuning API, корпоративные клиенты] YandexGPT 4 (32K токенов, +35% на русском) доступна через Yandex Cloud за 0.2 руб./1K токенов и в Алисе. Руководитель Алексей Гусев анонсировал fine-tuning API для корпоративных клиентов, позволяющий дообучать модель на своих данных.
Протокол совещания: «Встреча отдела маркетинга, 28 февраля. Присутствовали: Мария Козлова (руководитель), Дмитрий Ли (SMM), Анна Волкова (контент). Обсуждали: 1) Q1 отчёт — расходы на рекламу выросли на 22%, но конверсия упала с 3.2% до 2.8%. 2) Запуск TikTok-канала — Дмитрий представил план, бюджет 150K руб/мес, старт 15 марта. 3) Редизайн лендинга — Анна показала A/B тесты: вариант B дал +18% конверсии. Решение: утвердить бюджет TikTok, запустить вариант B лендинга до 5 марта, Мария подготовит отчёт по ROI рекламных каналов к 10 марта.» Chain of Density: 5 резюме по ~35 слов. Каждое следующее плотнее.
Резюме 1 [сущности: отдел маркетинга] На совещании отдела маркетинга обсудили текущие результаты рекламы, планы по новым каналам и улучшение конверсии сайта. Приняли несколько решений по ближайшим действиям.
Резюме 2 [+рост расходов, TikTok, лендинг] Отдел маркетинга обсудил рост расходов на рекламу при падении конверсии, запуск TikTok-канала и редизайн лендинга. Приняты решения по бюджету и срокам запуска.
Резюме 3 [+22% расходы, 2.8% конверсия, 150K бюджет] Расходы на рекламу выросли на 22%, конверсия упала до 2.8%. Утверждён TikTok-канал с бюджетом 150K руб/мес. Редизайн лендинга показал +18% конверсии в A/B тесте.
Резюме 4 [+Козлова, Ли, Волкова, вариант B] Мария Козлова провела совещание: расходы +22%, конверсия 2.8%. Дмитрий Ли запускает TikTok (150K/мес, старт 15 марта). Анна Волкова показала A/B тест: вариант B лендинга даёт +18% конверсии.
Резюме 5 [+сроки: 5 марта, 10 марта, ROI-отчёт] Совещание 28 февраля: расходы +22%, конверсия 2.8%. Решения: TikTok (Ли, 150K/мес, старт 15 марта), лендинг вариант B до 5 марта (Волкова, +18%). Козлова готовит ROI-отчёт к 10 марта.
Выполни Chain of Density для абстракта научной статьи. Абстракт: [вставьте абстракт статьи] Напиши 5 резюме по ~50 слов. На каждой итерации добавляй 1-3 пропущенные ключевые сущности: названия методов, метрики, числа, датасеты. Не увеличивай длину. Для каждого резюме укажи добавленные сущности.
Резюме 1 [сущности: RAG, языковые модели] Исследование представляет новый подход к улучшению RAG-систем для языковых моделей. Метод повышает качество ответов за счёт более точного извлечения релевантных документов. Эксперименты подтверждают эффективность подхода на нескольких бенчмарках.
Резюме 3 [+adaptive retrieval, MMLU, +12% точность] Метод adaptive retrieval динамически определяет, когда RAG-системе нужен внешний контекст, а когда модель может ответить самостоятельно. На MMLU точность выросла на 12%. Подход совместим с GPT-4 и Llama 3 без дообучения.
Резюме 5 [+confidence threshold 0.7, latency -40%, NQ, TriviaQA] Adaptive retrieval с порогом уверенности 0.7 пропускает ненужные RAG-запросы: +12% точность на MMLU, +8% на NQ, +15% на TriviaQA при снижении latency на 40%. Работает с GPT-4 и Llama 3 70B без fine-tuning, через prompt-based calibration.
Сегодня CoD логично ставить рядом с iterative rewriting, executive summary compression, entity-aware summarization и prompt-chained editing workflows. Его реальная сила не в том, что итог “всегда лучше”, а в том, что он делает компрессию управляемой. Вы можете явно выбрать, на какой итерации остановиться, исходя из нужного баланса между плотностью и читаемостью.
CoD особенно хорошо работает, когда:
В этих сценариях обычная single-pass суммаризация часто оставляет слишком много “воды”, а CoD помогает целенаправленно её вытеснять.
Подход имеет и очевидные границы: если исходный текст короткий, многоитерационная компрессия избыточна; слишком плотный финальный слой может быть хуже для обычного читателя; а если модель не поняла исходный материал, CoD лишь плотнее упакует ту же ошибку. Поэтому на практике CoD лучше использовать как управляемый редакторский режим, а не как дефолтную суммаризацию для всего подряд.
| Задача | Что уплотняется | Эффект |
|---|---|---|
| Executive summary | Общие фразы → цифры и факты | Руководитель получает суть за 30 секунд |
| Дайджест новостей | Пересказ → ключевые события и имена | Больше новостей в одном письме |
| Протоколы встреч | Описание обсуждений → решения и дедлайны | Конкретный список действий |
| Научные статьи | Общие выводы → методы, метрики, датасеты | Быстрая оценка релевантности |
| Резюме кандидатов | Общие навыки → проекты, числа, результаты | Точнее скрининг |
Данные из исследования Adams et al. (2023): итерация 4 Chain of Density получила наивысшие оценки людей, опередив как обычные GPT-4 резюме, так и человеческие. Итерация 5 оценена ниже — слишком плотный текст читать сложнее.
1. В чём ключевая идея Chain of Density?
2. Какая итерация Chain of Density получила наивысшую оценку от людей в исследовании Adams et al.?
3. Что делает модель, когда добавляет новые сущности, но не может увеличить длину резюме?