Пропускная способность (Throughput)

Количество запросов или токенов, которое система с языковой моделью может обработать за единицу времени.

Пропускная способность (Throughput) — это количество запросов или токенов, которое система может обработать за единицу времени. Если латентность — это «скорость одного ответа», то пропускная способность — это «сколько ответов система может выдать одновременно».

Как это работает

Представьте кассу в магазине: латентность — это время обслуживания одного покупателя, а пропускная способность — сколько покупателей магазин может обслужить за час (с учётом всех касс).

Пропускная способность измеряется в:

  • Запросах в минуту (RPM) — сколько обращений к модели вы можете сделать
  • Токенах в минуту (TPM) — какой общий объём текста вы можете обработать

Типичные лимиты API

Уровень доступаЗапросов в минутуТокенов в минуту
Бесплатный3-2040 000
Стандартный60-500200 000
Корпоративный1 000-10 0002 000 000+

Почему это важно

Для обычного пользователя в чате пропускная способность не заметна. Но если вы строите приложение, которое обрабатывает тысячи запросов (например, чат-бот для интернет-магазина), пропускная способность API становится критически важной. Превышение лимитов приведёт к ошибкам и отказам в обслуживании.

Связанные термины

  • Латентность — время ответа на один запрос
  • Инференс — процесс генерации ответа, для которого считается пропускная способность
  • API — интерфейс, через который вы обращаетесь к модели с учётом лимитов