Механизм внимания (Attention)

Ключевой компонент трансформеров, позволяющий модели определять, какие части текста наиболее важны для понимания каждого слова.

Механизм внимания (Attention) — это способ, которым нейросеть определяет, на какие части текста нужно «обратить внимание» при обработке каждого конкретного слова.

Как это работает

Представьте, что вы читаете длинное предложение и встречаете местоимение «он». Чтобы понять, кто «он», вы мысленно возвращаетесь к началу и ищете подходящее существительное. Механизм внимания делает то же самое, но математически:

Для каждого слова модель вычисляет «оценки внимания» ко всем остальным словам
Слова с высокими оценками считаются важными для понимания текущего слова
Информация от важных слов сильнее влияет на итоговое представление

Пример

В предложении «Программист написал код, и он работал без ошибок»:

Слово	Оценка внимания к «он»
Программист	Средняя
код	Высокая
написал	Низкая
ошибок	Низкая

Модель определяет, что «он» скорее относится к «код» (код работал), а не к «программист».

Почему это важно

Механизм внимания решил главную проблему предыдущих нейросетей — неспособность учитывать связи между далёкими словами в длинных текстах. Именно благодаря вниманию модели могут работать с документами на сотни тысяч токенов.

Связанные термины

Трансформер — архитектура, построенная на механизме внимания
Контекстное окно — определяет, сколько текста модель может «видеть» одновременно
LLM — языковые модели, использующие механизм внимания

Источники

Латентность (Latency)

Мультимодальность (Multimodal)