Законы масштабирования (Scaling Laws)

Закономерности, показывающие, что качество AI-модели предсказуемо растёт с увеличением данных, размера модели и объёма вычислений.

Законы масштабирования — это эмпирические закономерности, показывающие, что качество языковой модели предсказуемо улучшается при увеличении трёх факторов: размера модели, объёма обучающих данных и количества вычислений.

Как это работает

Исследователи обнаружили, что зависимость между этими факторами и качеством модели подчиняется чётким математическим формулам — степенным законам. Это значит, что можно заранее предсказать, насколько хорошей будет модель, если увеличить ресурсы.

Три фактора масштабирования

Фактор	Что это	Пример
Размер модели	Количество параметров (весов)	7B → 70B → 405B параметров
Объём данных	Количество текста для обучения	Терабайты книг, сайтов, статей
Вычисления	Количество GPU-часов обучения	От тысяч до миллионов GPU-часов

Дистилляция — способ сделать маленькую модель, которая работает как большая
Квантизация — сжатие готовой модели для экономии ресурсов
Бенчмарк — тесты, на которых измеряют эффект масштабирования

Источники

Дистилляция (Knowledge Distillation)

Закрытые модели (Closed Source)

Законы масштабирования (Scaling Laws)

Как это работает

Три фактора масштабирования

Почему это важно

Ключевой вывод исследования Chinchilla

Связанные термины

Источники