Контекстное окно (Context Window)

Максимальный объём текста (в токенах), который языковая модель может обработать за один запрос — включая и ваш ввод, и ответ модели.

Контекстное окно — это максимальный объём текста (измеряется в токенах), который языковая модель может «видеть» и обрабатывать за один запрос. Сюда входят и ваше сообщение, и ответ модели.

Как это работает

Представьте рабочий стол ограниченного размера: вы можете разложить на нём только определённое количество документов. Контекстное окно — это размер такого стола для модели:

Маленькое окно (4K-8K токенов) — несколько страниц текста. Подходит для простых вопросов.
Среднее окно (32K-128K токенов) — небольшая книга. Можно анализировать длинные документы.
Большое окно (200K-1M+ токенов) — несколько книг. Можно загрузить целый кодовый проект или серию документов.

Размеры контекстных окон популярных моделей

Модель	Контекстное окно
Claude Sonnet/Opus	200 000 токенов
GPT-4o	128 000 токенов
Gemini 1.5 Pro	1 000 000 токенов
GigaChat Pro	32 000 токенов

Что происходит, если текст не помещается

Если ваш запрос и история переписки превышают контекстное окно, модель «забывает» самые ранние сообщения. Поэтому в длинных чатах модель может потерять контекст начала разговора.

Связанные термины

Токены — единицы измерения контекстного окна
RAG — технология, позволяющая обойти ограничения контекстного окна через поиск по документам
Промпт — ваш ввод, занимающий часть контекстного окна

Источники

Квантизация (Quantization)

Косинусное сходство (Cosine Similarity)