Пропускная способность (Throughput)

Количество запросов или токенов, которое система с языковой моделью может обработать за единицу времени.

Пропускная способность (Throughput) — это количество запросов или токенов, которое система может обработать за единицу времени. Если латентность — это «скорость одного ответа», то пропускная способность — это «сколько ответов система может выдать одновременно».

Как это работает

Представьте кассу в магазине: латентность — это время обслуживания одного покупателя, а пропускная способность — сколько покупателей магазин может обслужить за час (с учётом всех касс).

Пропускная способность измеряется в:

Запросах в минуту (RPM) — сколько обращений к модели вы можете сделать
Токенах в минуту (TPM) — какой общий объём текста вы можете обработать

Типичные лимиты API

Уровень доступа	Запросов в минуту	Токенов в минуту
Бесплатный	3-20	40 000
Стандартный	60-500	200 000
Корпоративный	1 000-10 000	2 000 000+

Почему это важно

Для обычного пользователя в чате пропускная способность не заметна. Но если вы строите приложение, которое обрабатывает тысячи запросов (например, чат-бот для интернет-магазина), пропускная способность API становится критически важной. Превышение лимитов приведёт к ошибкам и отказам в обслуживании.

Связанные термины

Латентность — время ответа на один запрос
Инференс — процесс генерации ответа, для которого считается пропускная способность
API — интерфейс, через который вы обращаетесь к модели с учётом лимитов

Источники

Промпт-инженерия (Prompt Engineering)

Рассуждения (Reasoning) в AI