LoRA (Low-Rank Adaptation)

Метод эффективного дообучения AI-моделей, позволяющий адаптировать большую модель под конкретную задачу с минимальными затратами ресурсов.

LoRA — это метод эффективного дообучения больших языковых моделей, который позволяет адаптировать модель под конкретную задачу, изменяя лишь малую часть её параметров. Это делает дообучение доступным даже на обычном оборудовании.

Как это работает

При обычном дообучении (fine-tuning) изменяются все миллиарды параметров модели — это дорого и долго. LoRA действует иначе:

Основные параметры модели замораживаются (не меняются)
К ним добавляются небольшие дополнительные матрицы — адаптеры
Обучаются только адаптеры (обычно менее 1% от общего числа параметров)
Результат — модель, адаптированная под задачу, при минимальных затратах

Сравнение методов дообучения

Метод	Изменяемые параметры	Нужные ресурсы	Время
Полное fine-tuning	Все (100%)	Десятки GPU	Дни
LoRA	Менее 1%	1-2 GPU	Часы
QLoRA	Менее 1% + квантизация	1 GPU	Часы

Зачем нужна LoRA

Обучить модель на своих данных — например, на документах компании
Адаптировать стиль — чтобы модель писала в определённом тоне
Специализировать модель — для медицины, юриспруденции или другой области
Сэкономить ресурсы — дообучение на обычном компьютере с GPU

Связанные термины

Fine-tuning — общий процесс дообучения модели, который LoRA делает эффективнее
Квантизация — сжатие модели, часто сочетается с LoRA (QLoRA)
Open Source модели — модели, которые можно дообучить с помощью LoRA
Дистилляция — другой подход к созданию компактных моделей

Источники

LLM (Large Language Model — Большая языковая модель)

MCP (Model Context Protocol)