Трансформер (Transformer)

Архитектура нейросети, лежащая в основе всех современных языковых моделей. Революционная разработка 2017 года от Google.

Трансформер — это архитектура нейронной сети, представленная в 2017 году. Все современные языковые модели — GPT, Claude, Gemini, GigaChat — построены на основе трансформеров.

Как это работает

До трансформеров нейросети обрабатывали текст последовательно — слово за словом, как человек читает книгу. Трансформер изменил подход:

  • Параллельная обработка. Трансформер «видит» все слова текста одновременно, а не по очереди. Это делает обучение гораздо быстрее.
  • Механизм внимания. Для каждого слова модель определяет, какие другие слова в тексте для него важнее всего. Например, в предложении «Кошка, которая сидела на крыше, мяукала» модель связывает «мяукала» с «кошка», а не с «крыше».
  • Масштабируемость. Трансформер можно делать всё больше (больше параметров, больше данных), и он продолжает улучшаться.

Почему трансформер стал прорывом

До трансформеровПосле трансформеров
Текст обрабатывается последовательноТекст обрабатывается параллельно
Сложно улавливать связи в длинных текстахМеханизм внимания связывает далёкие слова
Медленное обучениеБыстрое обучение на GPU
Ограниченное качество текстаГенерация текста, неотличимого от человеческого

Буква T в GPT

GPT расшифровывается как Generative Pre-trained Transformer. Буква T — это именно трансформер, архитектура, на которой построена модель.

Связанные термины

  • Механизм внимания (Attention) — ключевой компонент трансформера
  • LLM — большие языковые модели, построенные на архитектуре трансформера
  • Токены — единицы текста, которые трансформер обрабатывает