Fine-tuning: от теории к практике

Когда промптинга недостаточно — дообучение моделей: LoRA, RLHF, синтетические данные, дистилляция

Продвинутый~5ч14 уроков

Fine-tuning (дообучение) — это следующий уровень после промптинга. Когда вы уже умеете составлять хорошие запросы к модели, но всё равно не можете добиться нужного стиля, формата или предметной экспертизы — пора задуматься о дообучении. Этот курс объясняет, как fine-tuning работает изнутри, когда он реально нужен, и как его применять на практике — от простых API OpenAI до открытых моделей с LoRA на своём железе.

Первый модуль — про фундамент. Мы разберёмся, что fine-tuning делает с моделью на уровне весов, в каких ситуациях он обыгрывает промптинг, а в каких лучше выбрать RAG (Retrieval-Augmented Generation, то есть дополнение модели поиском по документам). Не всегда дообучение — правильный выбор, и понимание этих границ сэкономит вам время и деньги. Второй модуль — практический: пройдёмся по реальным инструментам. Разберём fine-tuning через API OpenAI, метод LoRA (Low-Rank Adaptation — техника дообучения, требующая в десятки раз меньше памяти), особенности работы с русскоязычными моделями и генерацию синтетических обучающих данных, когда реальных примеров не хватает.

Третий модуль — для тех, кто хочет идти дальше. RLHF (Reinforcement Learning from Human Feedback, обучение с подкреплением на основе оценок людей), DPO (Direct Preference Optimization — более простая альтернатива RLHF), дистилляция моделей (перенос знаний большой модели в компактную). Это техники, с помощью которых обучают GPT-4, Claude и другие передовые модели — и они всё более доступны для практического применения.

Курс рассчитан на разработчиков и ML-инженеров, которые уже работали с LLM через API и хотят выйти за пределы промптинга. Базовое понимание того, как работают языковые модели, поможет — но глубокого ML-бэкграунда не требуется. Проходи модули последовательно: теория закрепляется практикой, практика — квизами в конце каждого блока.

Модуль 1: Основы дообучения

Когда нужен fine-tuning, чем отличается от RAG и промптинга

  1. Введение: основы дообучения
  2. Когда промптинг недостаточен
  3. Fine-tuning vs RAG
  4. Проверь себя: основы

Модуль 3: Продвинутое дообучение

RLHF, DPO, дистилляция моделей

  1. Введение: продвинутое дообучение
  2. RLHF и DPO
  3. Model Distillation
  4. Проверь себя: продвинутое