Мультимодальность — это способность AI-модели понимать и генерировать контент разных типов: текст, изображения, аудио, видео. Мультимодальная модель может, например, описать фотографию текстом или сгенерировать изображение по текстовому запросу.
Мультимодальные модели обучены на парах «изображение + текст», «аудио + текст» и т.д. Они умеют переводить информацию между модальностями — например, понять, что изображено на фото, и описать это словами.
| Модель | Модальности |
|---|---|
| GPT-4o | Текст, изображения, аудио, видео |
| Claude 3.5 | Текст, изображения |
| Gemini | Текст, изображения, аудио, видео |
| DALL-E 3 | Текст → изображения |