Дистилляция знаний — это метод обучения, при котором маленькая модель (ученик) учится воспроизводить поведение большой модели (учителя). Цель — получить компактную модель, которая работает почти так же хорошо, как большая, но требует гораздо меньше ресурсов.
Представьте опытного профессора, который 40 лет изучал тему. Его студент не может получить весь этот опыт, но может выучить ключевые выводы и решать большинство практических задач — за гораздо более короткий срок.
| Проблема | Как решает дистилляция |
|---|---|
| Большая модель слишком дорогая | Маленькая модель дешевле в 10-100 раз |
| Нужна работа на телефоне | Компактная модель помещается на устройство |
| Требуется высокая скорость | Маленькая модель отвечает быстрее |
| Ограниченные серверные ресурсы | Меньше требований к GPU |
Многие компактные модели созданы путём дистилляции: например, модели с суффиксом «distilled» или «student» в названии обучались на выходах более крупных моделей.