Механизм внимания (Attention)

Ключевой компонент трансформеров, позволяющий модели определять, какие части текста наиболее важны для понимания каждого слова.

Механизм внимания (Attention) — это способ, которым нейросеть определяет, на какие части текста нужно «обратить внимание» при обработке каждого конкретного слова.

Как это работает

Представьте, что вы читаете длинное предложение и встречаете местоимение «он». Чтобы понять, кто «он», вы мысленно возвращаетесь к началу и ищете подходящее существительное. Механизм внимания делает то же самое, но математически:

  1. Для каждого слова модель вычисляет «оценки внимания» ко всем остальным словам
  2. Слова с высокими оценками считаются важными для понимания текущего слова
  3. Информация от важных слов сильнее влияет на итоговое представление

Пример

В предложении «Программист написал код, и он работал без ошибок»:

СловоОценка внимания к «он»
ПрограммистСредняя
кодВысокая
написалНизкая
ошибокНизкая

Модель определяет, что «он» скорее относится к «код» (код работал), а не к «программист».

Почему это важно

Механизм внимания решил главную проблему предыдущих нейросетей — неспособность учитывать связи между далёкими словами в длинных текстах. Именно благодаря вниманию модели могут работать с документами на сотни тысяч токенов.

Связанные термины

  • Трансформер — архитектура, построенная на механизме внимания
  • Контекстное окно — определяет, сколько текста модель может «видеть» одновременно
  • LLM — языковые модели, использующие механизм внимания