Трансформер — это архитектура нейронной сети, представленная в 2017 году. Все современные языковые модели — GPT, Claude, Gemini, GigaChat — построены на основе трансформеров.
До трансформеров нейросети обрабатывали текст последовательно — слово за словом, как человек читает книгу. Трансформер изменил подход:
| До трансформеров | После трансформеров |
|---|---|
| Текст обрабатывается последовательно | Текст обрабатывается параллельно |
| Сложно улавливать связи в длинных текстах | Механизм внимания связывает далёкие слова |
| Медленное обучение | Быстрое обучение на GPU |
| Ограниченное качество текста | Генерация текста, неотличимого от человеческого |
GPT расшифровывается как Generative Pre-trained Transformer. Буква T — это именно трансформер, архитектура, на которой построена модель.