Латентность — это время задержки между отправкой запроса языковой модели и получением ответа. Чем ниже латентность, тем быстрее модель отвечает.
Когда вы отправляете сообщение, оно проходит несколько этапов, каждый из которых добавляет задержку:
| Фактор | Влияние |
|---|---|
| Размер модели | Большие модели (Opus) медленнее маленьких (Haiku) |
| Длина промпта | Чем длиннее запрос, тем дольше его обрабатывать |
| Длина ответа | Больше токенов в ответе = дольше ждать |
| Нагрузка на сервер | В час пик ответы приходят медленнее |
| Стриминг | Потоковая передача показывает ответ по мере генерации |
Быстрая модель (например, Claude Haiku) отвечает за 0.3-1 секунду — подходит для чат-ботов и автодополнения. Мощная модель (например, Claude Opus) может думать 3-10 секунд — подходит для сложного анализа, где качество важнее скорости.