Memory Management в 2026 полезно строить не вокруг метафоры “дайте модели память”, а вокруг более точного вопроса: какой тип состояния должен переживать один вызов, одну сессию или много сессий подряд. Это важнее, чем просто хранить побольше истории.
Практически память в LLM-системах обычно делится на четыре слоя:
Working state — это всё, что модель видит в текущем вызове:
Это не “память” в долгоживущем смысле, а самый короткий слой состояния. Он живёт ровно один вызов и потом исчезает.
Поэтому working state надо держать маленьким, актуальным и хорошо структурированным.
Short-term state живёт в пределах одной сессии. Его задача — удерживать continuity:
Это почти всегда лучше хранить как сочетание:
Short-term state не должен автоматически становиться durable memory.
Durable memory хранит то, что полезно и за пределами одной сессии:
Хороший durable memory слой обычно:
Кроме устойчивых фактов полезно хранить:
Именно сюда часто попадают:
Это не всегда должно грузиться в каждый запрос. Часто такой слой лучше работает через semantic recall по необходимости.
Самая частая ошибка — хранить всё подряд.
В продакшене полезнее иметь explicit write policy:
записывать:
не записывать:
Не вся память должна загружаться всегда.
Обычно есть три режима чтения:
Это позволяет не раздувать context бесполезными фактами.
Одна из самых важных границ:
| Transcript | Memory |
|---|---|
| что было сказано | что стоит помнить |
| сырая история | curated facts/state |
| часто шумный | должен быть компактным |
| полезен для continuity | полезен для долговременного контекста |
Плохая архитектура — та, где transcript просто без фильтра переезжает в memory.
RAG обычно отвечает на вопрос:
Memory отвечает на другой вопрос:
Они могут использовать похожие retrieval-механизмы, но их purpose разный.
Если память живёт долго, ей почти всегда нужен lifecycle:
Это важно потому, что факты устаревают:
Поэтому memory store без update/delete быстро становится грязным.
У агентных систем memory почти всегда делится ещё жёстче:
Это особенно важно, потому что агенту часто нужно помнить:
MemGPT полезен не столько как буквальный production default, сколько как mental model: контекстное окно похоже на RAM, а durable store — на более медленное, но большое внешнее хранилище.
Это подталкивает к здоровому вопросу:
Для большинства production-систем здоровый memory stack выглядит так: