Контекстное окно (Context Window)

Максимальный объём текста (в токенах), который языковая модель может обработать за один запрос — включая и ваш ввод, и ответ модели.

Контекстное окно — это максимальный объём текста (измеряется в токенах), который языковая модель может «видеть» и обрабатывать за один запрос. Сюда входят и ваше сообщение, и ответ модели.

Как это работает

Представьте рабочий стол ограниченного размера: вы можете разложить на нём только определённое количество документов. Контекстное окно — это размер такого стола для модели:

  • Маленькое окно (4K-8K токенов) — несколько страниц текста. Подходит для простых вопросов.
  • Среднее окно (32K-128K токенов) — небольшая книга. Можно анализировать длинные документы.
  • Большое окно (200K-1M+ токенов) — несколько книг. Можно загрузить целый кодовый проект или серию документов.

Размеры контекстных окон популярных моделей

МодельКонтекстное окно
Claude Sonnet/Opus200 000 токенов
GPT-4o128 000 токенов
Gemini 1.5 Pro1 000 000 токенов
GigaChat Pro32 000 токенов

Что происходит, если текст не помещается

Если ваш запрос и история переписки превышают контекстное окно, модель «забывает» самые ранние сообщения. Поэтому в длинных чатах модель может потерять контекст начала разговора.

Связанные термины

  • Токены — единицы измерения контекстного окна
  • RAG — технология, позволяющая обойти ограничения контекстного окна через поиск по документам
  • Промпт — ваш ввод, занимающий часть контекстного окна