Латентность (Latency)

Время отклика языковой модели — задержка между отправкой запроса и получением первых слов ответа.

Латентность — это время задержки между отправкой запроса языковой модели и получением ответа. Чем ниже латентность, тем быстрее модель отвечает.

Как это работает

Когда вы отправляете сообщение, оно проходит несколько этапов, каждый из которых добавляет задержку:

Передача по сети — ваш запрос отправляется на сервер
Обработка промпта — модель «читает» ваш запрос (чем длиннее, тем дольше)
Генерация ответа — модель создаёт ответ токен за токеном
Передача обратно — ответ возвращается к вам

Что влияет на латентность

Фактор	Влияние
Размер модели	Большие модели (Opus) медленнее маленьких (Haiku)
Длина промпта	Чем длиннее запрос, тем дольше его обрабатывать
Длина ответа	Больше токенов в ответе = дольше ждать
Нагрузка на сервер	В час пик ответы приходят медленнее
Стриминг	Потоковая передача показывает ответ по мере генерации

Быстрая модель (например, Claude Haiku) отвечает за 0.3-1 секунду — подходит для чат-ботов и автодополнения. Мощная модель (например, Claude Opus) может думать 3-10 секунд — подходит для сложного анализа, где качество важнее скорости.

Связанные термины

Инференс — процесс генерации ответа, для которого измеряется латентность
Пропускная способность — сколько запросов система обрабатывает одновременно
Токены — единицы генерации, влияющие на время ответа

Источники

Косинусное сходство (Cosine Similarity)

Механизм внимания (Attention)

Латентность (Latency)

Как это работает

Что влияет на латентность

Практический пример

Связанные термины

Источники