Законы масштабирования (Scaling Laws)

Закономерности, показывающие, что качество AI-модели предсказуемо растёт с увеличением данных, размера модели и объёма вычислений.

Законы масштабирования — это эмпирические закономерности, показывающие, что качество языковой модели предсказуемо улучшается при увеличении трёх факторов: размера модели, объёма обучающих данных и количества вычислений.

Как это работает

Исследователи обнаружили, что зависимость между этими факторами и качеством модели подчиняется чётким математическим формулам — степенным законам. Это значит, что можно заранее предсказать, насколько хорошей будет модель, если увеличить ресурсы.

Три фактора масштабирования

ФакторЧто этоПример
Размер моделиКоличество параметров (весов)7B → 70B → 405B параметров
Объём данныхКоличество текста для обученияТерабайты книг, сайтов, статей
ВычисленияКоличество GPU-часов обученияОт тысяч до миллионов GPU-часов

Почему это важно

Законы масштабирования объясняют, почему компании вкладывают миллиарды долларов в обучение всё более крупных моделей: каждое удвоение ресурсов даёт предсказуемый прирост качества. Именно это открытие запустило «гонку» за всё большими моделями.

Ключевой вывод исследования Chinchilla

Работа Hoffmann et al. (2022) показала, что многие ранние модели были слишком большими для объёма данных, на которых их обучали. Оптимальный подход — увеличивать размер модели и объём данных пропорционально.

Связанные термины

  • Дистилляция — способ сделать маленькую модель, которая работает как большая
  • Квантизация — сжатие готовой модели для экономии ресурсов
  • Бенчмарк — тесты, на которых измеряют эффект масштабирования