Законы масштабирования — это эмпирические закономерности, показывающие, что качество языковой модели предсказуемо улучшается при увеличении трёх факторов: размера модели, объёма обучающих данных и количества вычислений.
Исследователи обнаружили, что зависимость между этими факторами и качеством модели подчиняется чётким математическим формулам — степенным законам. Это значит, что можно заранее предсказать, насколько хорошей будет модель, если увеличить ресурсы.
| Фактор | Что это | Пример |
|---|---|---|
| Размер модели | Количество параметров (весов) | 7B → 70B → 405B параметров |
| Объём данных | Количество текста для обучения | Терабайты книг, сайтов, статей |
| Вычисления | Количество GPU-часов обучения | От тысяч до миллионов GPU-часов |
Законы масштабирования объясняют, почему компании вкладывают миллиарды долларов в обучение всё более крупных моделей: каждое удвоение ресурсов даёт предсказуемый прирост качества. Именно это открытие запустило «гонку» за всё большими моделями.
Работа Hoffmann et al. (2022) показала, что многие ранние модели были слишком большими для объёма данных, на которых их обучали. Оптимальный подход — увеличивать размер модели и объём данных пропорционально.