Квантизация (Quantization)

Метод сжатия AI-модели путём снижения точности числовых параметров. Уменьшает размер модели и ускоряет её работу с минимальной потерей качества.

Квантизация — это метод сжатия AI-модели, при котором числовые параметры (веса) хранятся с меньшей точностью. Это значительно уменьшает размер модели и ускоряет её работу, при этом качество ответов снижается незначительно.

Как это работает

Параметры модели — это числа. Обычно они хранятся с высокой точностью (16 бит на число). Квантизация уменьшает эту точность:

ФорматБит на числоРазмер модели 7BКачество
FP16 (оригинал)16 бит~14 ГБ100%
INT88 бит~7 ГБ~99%
INT44 бит~3.5 ГБ~95-97%
INT22 бита~1.75 ГБ~85-90%

Аналогия из жизни

Представьте фотографию. Оригинал в формате RAW весит 50 МБ. Сохранение в JPEG уменьшает размер до 5 МБ — визуально картинка почти такая же, но файл в 10 раз легче. Квантизация работает по похожему принципу.

Зачем нужна квантизация

  • Запуск на обычном компьютере — модель в 70B параметров помещается в память обычной видеокарты
  • Ускорение — модель отвечает быстрее
  • Снижение стоимости — требуется меньше серверных ресурсов
  • Мобильные устройства — модели можно запускать на телефоне

Связанные термины

  • LoRA — метод дообучения, часто используется вместе с квантизацией (QLoRA)
  • Open Source модели — модели, которые квантизируют для локального запуска
  • Дистилляция — другой подход к уменьшению модели