Механизм внимания (Attention) — это способ, которым нейросеть определяет, на какие части текста нужно «обратить внимание» при обработке каждого конкретного слова.
Представьте, что вы читаете длинное предложение и встречаете местоимение «он». Чтобы понять, кто «он», вы мысленно возвращаетесь к началу и ищете подходящее существительное. Механизм внимания делает то же самое, но математически:
В предложении «Программист написал код, и он работал без ошибок»:
| Слово | Оценка внимания к «он» |
|---|---|
| Программист | Средняя |
| код | Высокая |
| написал | Низкая |
| ошибок | Низкая |
Модель определяет, что «он» скорее относится к «код» (код работал), а не к «программист».
Механизм внимания решил главную проблему предыдущих нейросетей — неспособность учитывать связи между далёкими словами в длинных текстах. Именно благодаря вниманию модели могут работать с документами на сотни тысяч токенов.