Инференс — это процесс, при котором обученная языковая модель получает ваш запрос и генерирует ответ. Если обучение — это «учёба», то инференс — это «экзамен», где модель применяет всё, чему научилась.
Когда вы отправляете сообщение в ChatGPT или Claude, происходит инференс:
| Характеристика | Описание |
|---|---|
| Латентность | Время от отправки запроса до первого токена ответа |
| Скорость генерации | Количество токенов в секунду |
| Стоимость | Оплата за входные и выходные токены |
| Потребление ресурсов | Для инференса больших моделей нужны мощные GPU |
Каждый запрос к модели задействует мощные серверы с дорогими GPU. Стоимость зависит от размера модели и количества токенов. Поэтому API-провайдеры (OpenAI, Anthropic) берут плату за каждый запрос — вы оплачиваете инференс.