Трансформер (Transformer)

Архитектура нейросети, лежащая в основе всех современных языковых моделей. Революционная разработка 2017 года от Google.

Трансформер — это архитектура нейронной сети, представленная в 2017 году. Все современные языковые модели — GPT, Claude, Gemini, GigaChat — построены на основе трансформеров.

Как это работает

До трансформеров нейросети обрабатывали текст последовательно — слово за словом, как человек читает книгу. Трансформер изменил подход:

Параллельная обработка. Трансформер «видит» все слова текста одновременно, а не по очереди. Это делает обучение гораздо быстрее.
Механизм внимания. Для каждого слова модель определяет, какие другие слова в тексте для него важнее всего. Например, в предложении «Кошка, которая сидела на крыше, мяукала» модель связывает «мяукала» с «кошка», а не с «крыше».
Масштабируемость. Трансформер можно делать всё больше (больше параметров, больше данных), и он продолжает улучшаться.

Почему трансформер стал прорывом

До трансформеров	После трансформеров
Текст обрабатывается последовательно	Текст обрабатывается параллельно
Сложно улавливать связи в длинных текстах	Механизм внимания связывает далёкие слова
Медленное обучение	Быстрое обучение на GPU
Ограниченное качество текста	Генерация текста, неотличимого от человеческого

Буква T в GPT

GPT расшифровывается как Generative Pre-trained Transformer. Буква T — это именно трансформер, архитектура, на которой построена модель.

Связанные термины

Механизм внимания (Attention) — ключевой компонент трансформера
LLM — большие языковые модели, построенные на архитектуре трансформера
Токены — единицы текста, которые трансформер обрабатывает

Источники

Токены (Tokens)

Чанкинг (Chunking)