LoRA (Low-Rank Adaptation)

Метод эффективного дообучения AI-моделей, позволяющий адаптировать большую модель под конкретную задачу с минимальными затратами ресурсов.

LoRA — это метод эффективного дообучения больших языковых моделей, который позволяет адаптировать модель под конкретную задачу, изменяя лишь малую часть её параметров. Это делает дообучение доступным даже на обычном оборудовании.

Как это работает

При обычном дообучении (fine-tuning) изменяются все миллиарды параметров модели — это дорого и долго. LoRA действует иначе:

  1. Основные параметры модели замораживаются (не меняются)
  2. К ним добавляются небольшие дополнительные матрицы — адаптеры
  3. Обучаются только адаптеры (обычно менее 1% от общего числа параметров)
  4. Результат — модель, адаптированная под задачу, при минимальных затратах

Сравнение методов дообучения

МетодИзменяемые параметрыНужные ресурсыВремя
Полное fine-tuningВсе (100%)Десятки GPUДни
LoRAМенее 1%1-2 GPUЧасы
QLoRAМенее 1% + квантизация1 GPUЧасы

Зачем нужна LoRA

  • Обучить модель на своих данных — например, на документах компании
  • Адаптировать стиль — чтобы модель писала в определённом тоне
  • Специализировать модель — для медицины, юриспруденции или другой области
  • Сэкономить ресурсы — дообучение на обычном компьютере с GPU

Связанные термины

  • Fine-tuning — общий процесс дообучения модели, который LoRA делает эффективнее
  • Квантизация — сжатие модели, часто сочетается с LoRA (QLoRA)
  • Open Source модели — модели, которые можно дообучить с помощью LoRA
  • Дистилляция — другой подход к созданию компактных моделей