Квантизация — это метод сжатия AI-модели, при котором числовые параметры (веса) хранятся с меньшей точностью. Это значительно уменьшает размер модели и ускоряет её работу, при этом качество ответов снижается незначительно.
Параметры модели — это числа. Обычно они хранятся с высокой точностью (16 бит на число). Квантизация уменьшает эту точность:
| Формат | Бит на число | Размер модели 7B | Качество |
|---|---|---|---|
| FP16 (оригинал) | 16 бит | ~14 ГБ | 100% |
| INT8 | 8 бит | ~7 ГБ | ~99% |
| INT4 | 4 бит | ~3.5 ГБ | ~95-97% |
| INT2 | 2 бита | ~1.75 ГБ | ~85-90% |
Представьте фотографию. Оригинал в формате RAW весит 50 МБ. Сохранение в JPEG уменьшает размер до 5 МБ — визуально картинка почти такая же, но файл в 10 раз легче. Квантизация работает по похожему принципу.