Инференс (Inference)

Процесс генерации ответа языковой моделью — момент, когда обученная модель принимает запрос и выдаёт результат.

Инференс — это процесс, при котором обученная языковая модель получает ваш запрос и генерирует ответ. Если обучение — это «учёба», то инференс — это «экзамен», где модель применяет всё, чему научилась.

Как это работает

Когда вы отправляете сообщение в ChatGPT или Claude, происходит инференс:

  1. Ваш текст разбивается на токены
  2. Токены поступают в нейросеть
  3. Модель последовательно генерирует токены ответа, один за другим
  4. Каждый новый токен зависит от всех предыдущих (и вашего запроса, и уже сгенерированной части ответа)

Ключевые характеристики инференса

ХарактеристикаОписание
ЛатентностьВремя от отправки запроса до первого токена ответа
Скорость генерацииКоличество токенов в секунду
СтоимостьОплата за входные и выходные токены
Потребление ресурсовДля инференса больших моделей нужны мощные GPU

Почему инференс стоит денег

Каждый запрос к модели задействует мощные серверы с дорогими GPU. Стоимость зависит от размера модели и количества токенов. Поэтому API-провайдеры (OpenAI, Anthropic) берут плату за каждый запрос — вы оплачиваете инференс.

Связанные термины

  • Латентность — скорость отклика при инференсе
  • Пропускная способность — сколько запросов модель может обработать одновременно
  • Токены — единицы, за которые считается стоимость инференса