Квантизация (Quantization)

Метод сжатия AI-модели путём снижения точности числовых параметров. Уменьшает размер модели и ускоряет её работу с минимальной потерей качества.

Квантизация — это метод сжатия AI-модели, при котором числовые параметры (веса) хранятся с меньшей точностью. Это значительно уменьшает размер модели и ускоряет её работу, при этом качество ответов снижается незначительно.

Как это работает

Параметры модели — это числа. Обычно они хранятся с высокой точностью (16 бит на число). Квантизация уменьшает эту точность:

Формат	Бит на число	Размер модели 7B	Качество
FP16 (оригинал)	16 бит	~14 ГБ	100%
INT8	8 бит	~7 ГБ	~99%
INT4	4 бит	~3.5 ГБ	~95-97%
INT2	2 бита	~1.75 ГБ	~85-90%

Аналогия из жизни

Представьте фотографию. Оригинал в формате RAW весит 50 МБ. Сохранение в JPEG уменьшает размер до 5 МБ — визуально картинка почти такая же, но файл в 10 раз легче. Квантизация работает по похожему принципу.

Зачем нужна квантизация

Запуск на обычном компьютере — модель в 70B параметров помещается в память обычной видеокарты
Ускорение — модель отвечает быстрее
Снижение стоимости — требуется меньше серверных ресурсов
Мобильные устройства — модели можно запускать на телефоне

Связанные термины

LoRA — метод дообучения, часто используется вместе с квантизацией (QLoRA)
Open Source модели — модели, которые квантизируют для локального запуска
Дистилляция — другой подход к уменьшению модели

Источники

Инференс (Inference)

Контекстное окно (Context Window)