Мультимодальность (Multimodal)

Способность AI-модели работать с несколькими типами данных одновременно — текст, изображения, аудио, видео.

Мультимодальность — это способность AI-модели понимать и генерировать контент разных типов: текст, изображения, аудио, видео. Мультимодальная модель может, например, описать фотографию текстом или сгенерировать изображение по текстовому запросу.

Как это работает

Мультимодальные модели обучены на парах «изображение + текст», «аудио + текст» и т.д. Они умеют переводить информацию между модальностями — например, понять, что изображено на фото, и описать это словами.

Примеры мультимодальных моделей

МодельМодальности
GPT-4oТекст, изображения, аудио, видео
Claude 3.5Текст, изображения
GeminiТекст, изображения, аудио, видео
DALL-E 3Текст → изображения

Практические применения

  • Анализ скриншотов: загрузить скриншот ошибки и получить объяснение
  • Описание товаров: загрузить фото товара и получить текст для каталога
  • Анализ графиков: загрузить диаграмму и получить текстовый анализ данных
  • Транскрибация: преобразование аудио в текст (Whisper)

Связанные термины

  • LLM — языковые модели, работающие только с текстом
  • Computer Vision — область AI по работе с изображениями
  • OCR — распознавание текста на изображениях