Мультимодальность (Multimodal)

Способность AI-модели работать с несколькими типами данных одновременно — текст, изображения, аудио, видео.

Мультимодальность — это способность AI-модели понимать и генерировать контент разных типов: текст, изображения, аудио, видео. Мультимодальная модель может, например, описать фотографию текстом или сгенерировать изображение по текстовому запросу.

Как это работает

Мультимодальные модели обучены на парах «изображение + текст», «аудио + текст» и т.д. Они умеют переводить информацию между модальностями — например, понять, что изображено на фото, и описать это словами.

Примеры мультимодальных моделей

Модель	Модальности
GPT-4o	Текст, изображения, аудио, видео
Claude 3.5	Текст, изображения
Gemini	Текст, изображения, аудио, видео
DALL-E 3	Текст → изображения

Практические применения

Анализ скриншотов: загрузить скриншот ошибки и получить объяснение
Описание товаров: загрузить фото товара и получить текст для каталога
Анализ графиков: загрузить диаграмму и получить текстовый анализ данных
Транскрибация: преобразование аудио в текст (Whisper)

Связанные термины

LLM — языковые модели, работающие только с текстом
Computer Vision — область AI по работе с изображениями
OCR — распознавание текста на изображениях

Источники

Механизм внимания (Attention)

Перплексия (Perplexity)