Инференс (Inference)

Процесс генерации ответа языковой моделью — момент, когда обученная модель принимает запрос и выдаёт результат.

Инференс — это процесс, при котором обученная языковая модель получает ваш запрос и генерирует ответ. Если обучение — это «учёба», то инференс — это «экзамен», где модель применяет всё, чему научилась.

Как это работает

Когда вы отправляете сообщение в ChatGPT или Claude, происходит инференс:

Ваш текст разбивается на токены
Токены поступают в нейросеть
Модель последовательно генерирует токены ответа, один за другим
Каждый новый токен зависит от всех предыдущих (и вашего запроса, и уже сгенерированной части ответа)

Ключевые характеристики инференса

Характеристика	Описание
Латентность	Время от отправки запроса до первого токена ответа
Скорость генерации	Количество токенов в секунду
Стоимость	Оплата за входные и выходные токены
Потребление ресурсов	Для инференса больших моделей нужны мощные GPU

Почему инференс стоит денег

Каждый запрос к модели задействует мощные серверы с дорогими GPU. Стоимость зависит от размера модели и количества токенов. Поэтому API-провайдеры (OpenAI, Anthropic) берут плату за каждый запрос — вы оплачиваете инференс.

Связанные термины

Латентность — скорость отклика при инференсе
Пропускная способность — сколько запросов модель может обработать одновременно
Токены — единицы, за которые считается стоимость инференса

Источники

Закрытые модели (Closed Source)

Квантизация (Quantization)