Латентность (Latency)

Время отклика языковой модели — задержка между отправкой запроса и получением первых слов ответа.

Латентность — это время задержки между отправкой запроса языковой модели и получением ответа. Чем ниже латентность, тем быстрее модель отвечает.

Как это работает

Когда вы отправляете сообщение, оно проходит несколько этапов, каждый из которых добавляет задержку:

  1. Передача по сети — ваш запрос отправляется на сервер
  2. Обработка промпта — модель «читает» ваш запрос (чем длиннее, тем дольше)
  3. Генерация ответа — модель создаёт ответ токен за токеном
  4. Передача обратно — ответ возвращается к вам

Что влияет на латентность

ФакторВлияние
Размер моделиБольшие модели (Opus) медленнее маленьких (Haiku)
Длина промптаЧем длиннее запрос, тем дольше его обрабатывать
Длина ответаБольше токенов в ответе = дольше ждать
Нагрузка на серверВ час пик ответы приходят медленнее
СтримингПотоковая передача показывает ответ по мере генерации

Практический пример

Быстрая модель (например, Claude Haiku) отвечает за 0.3-1 секунду — подходит для чат-ботов и автодополнения. Мощная модель (например, Claude Opus) может думать 3-10 секунд — подходит для сложного анализа, где качество важнее скорости.

Связанные термины

  • Инференс — процесс генерации ответа, для которого измеряется латентность
  • Пропускная способность — сколько запросов система обрабатывает одновременно
  • Токены — единицы генерации, влияющие на время ответа