Пропускная способность (Throughput) — это количество запросов или токенов, которое система может обработать за единицу времени. Если латентность — это «скорость одного ответа», то пропускная способность — это «сколько ответов система может выдать одновременно».
Представьте кассу в магазине: латентность — это время обслуживания одного покупателя, а пропускная способность — сколько покупателей магазин может обслужить за час (с учётом всех касс).
Пропускная способность измеряется в:
| Уровень доступа | Запросов в минуту | Токенов в минуту |
|---|---|---|
| Бесплатный | 3-20 | 40 000 |
| Стандартный | 60-500 | 200 000 |
| Корпоративный | 1 000-10 000 | 2 000 000+ |
Для обычного пользователя в чате пропускная способность не заметна. Но если вы строите приложение, которое обрабатывает тысячи запросов (например, чат-бот для интернет-магазина), пропускная способность API становится критически важной. Превышение лимитов приведёт к ошибкам и отказам в обслуживании.