Мультимодальные AI-агенты: vision, audio и tools в одном

Мультимодальные агенты в 2026: vision, realtime audio, video understanding и computer use. Как собрать agent stack из OpenAI Realtime, Gemini Live API, Claude vision/computer use и tool orchestration.

Мультимодальный агент в 2026 — это уже не просто “LLM, который умеет смотреть картинки”. Практически полезный агентный стек теперь часто комбинирует сразу несколько каналов восприятия и действий:

vision для экранов, документов, изображений и UI;
audio для реального разговора;
video для длинных потоков и scene understanding;
tools для действий в CRM, браузере, файловой системе или business APIs.

Ключевой сдвиг в том, что мультимодальность перестала быть только свойством одной модели. На практике это orchestration-layer: один модуль слушает, другой видит, третий управляет интерфейсом, а оркестратор решает, какой capability вызвать и когда нужен human handoff.

Текстовый агент читает и пишет. Мультимодальный агент ещё и видит экран, слушает речь, может анализировать видео и выполнять действия через tools. То есть он работает не только со словами, а с реальным интерфейсом и реальными сигналами.

Не путайте multimodal model и multimodal agent. Модель умеет принять изображение, аудио или видео. Агент поверх неё умеет принимать решения, вызывать инструменты, вести stateful session, делать handoff и выполнять действия в среде.

Короткая версия

В 2026 мультимодальные агенты обычно собираются из трёх практических lane'ов:

Vision + tools: анализ экрана, документов, изображений, UI и computer use.
Realtime audio: разговор в реальном времени с tool use и low-latency turn-taking.
Video understanding: анализ длинного видео или live feed с временными метками.

Рынок сейчас удобно читать так:

Anthropic силён в vision + computer use и desktop/browser automation.
OpenAI даёт сильный realtime audio слой через gpt-realtime, а vision есть у latest general models.
Google Gemini закрывает Live API, video understanding и Computer Use в одном family.

ПромптMultimodal orchestrator

Построй агента для саппорта: клиент звонит, показывает экран, а агент ищет проблему в CRM и подсказывает следующий шаг.

Ответ модели

Нужен voice lane для диалога в реальном времени, vision lane для скриншотов экрана, CRM tools для side effects и policy-layer для handoff на чувствительных действиях. Не стоит пытаться делать это одной моделью без orchestration.

Только text agent

Пользователь описывает словами, что у него на экране и что он слышит в звонке. Агент теряет детали и часто работает на неполном контексте.

Multimodal agent

Агент получает audio stream, screenshot или video frame, видит интерфейс напрямую, слышит клиента в реальном времени и вызывает tools на основе полного контекста.

1. Что такое мультимодальный агент на практике

Мультимодальный агент почти всегда состоит из трёх слоёв:

Perception layer
Принимает text, image, audio, video.
Reasoning / routing layer
Решает, что важно, какой tool нужен, нужен ли follow-up question или human approval.
Action layer
Вызывает tools, возвращает speech/text, управляет браузером или desktop environment.

То есть useful multimodality в агентных системах возникает не потому, что “модель умеет картинки”, а потому что perception связан с действием.

2. Vision agents: документы, UI и computer use

Самая зрелая мультимодальная ветка сегодня — vision + tools.

Это сценарии, где агент:

читает скриншот или изображение;
распознаёт элементы интерфейса;
извлекает данные из формы, PDF, таблицы или графика;
принимает решение и либо отвечает, либо действует через browser / desktop tools.

Anthropic: vision + computer use

Anthropic сейчас особенно полезен в двух слоях:

обычный vision для анализа изображений и документов;
computer use tool для управления desktop/browser environment.

В docs Anthropic отдельно подчёркивает:

Claude 3/4 family принимает изображения как часть Messages API;
для больших изображений и множества image blocks есть реальные token/latency trade-offs;
computer use остаётся beta capability и требует sandboxed execution environment.

Это важная рамка: Anthropic хорош не как “универсальный голосовой стек”, а как practical choice для screen-native workflows.

OpenAI: vision у latest models, computer use как отдельный tool

У OpenAI latest general models уже поддерживают text+image input, а для action layer есть отдельный computer tool. Это значит, что мультимодальный агент у OpenAI не обязан быть завязан на один historical brand вроде GPT-4o Realtime или Operator.

Полезнее думать так:

gpt-5.x / latest general models для vision + reasoning;
gpt-realtime для live audio conversation;
computer tool для browser automation;
Responses / tools / agent stack для orchestration.

Google: vision, video и computer use в одном family

Google сейчас интересен тем, что в Gemini family есть сразу несколько relevant capabilities:

Live API для voice/video sessions;
Video understanding для длинного видео с timestamps;
Computer Use для browser-control scenarios.

Это делает Gemini удобным, когда нужен один vendor для voice + video + browser-oriented automation.

Плюсы

Vision agents работают там, где данные живут в UI, PDF, изображениях или видео
Computer use закрывает GUI-only последнюю милю
Документы, графики и скриншоты можно обрабатывать без отдельного OCR pipeline
Vision plus tools даёт более надёжный action layer, чем описание экрана словами

Минусы

Screenshots и images быстро увеличивают latency и token bill
GUI automation остаётся хрупкой: popups, layout shifts, CAPTCHA
Vision не гарантирует идеальную локализацию мелких элементов
С чувствительными данными нужен отдельный privacy/security слой

3. Voice agents: real-time audio как action surface

Вторая большая ветка мультимодальных агентов — voice agents.

Полезно различать два режима:

Cascaded voice stack

STT -> text LLM -> TTS

Плюсы:

проще контролировать каждый слой;
легче менять поставщиков;
часто удобнее для call-center backends и analytics.

Минусы:

выше latency;
хуже естественность;
сложнее держать truly conversational turn-taking.

Native realtime stack

Одна realtime-модель принимает audio input и отдаёт audio output, а также может вызывать tools в рамках живой сессии.

Это уже closer to natural conversation.

OpenAI: gpt-realtime

У OpenAI current voice framing лучше строить вокруг gpt-realtime, а не вокруг старого gpt-4o-realtime-preview.

По current model docs:

gpt-realtime принимает text и audio input;
поддерживает audio и text output;
работает через WebRTC, WebSocket или SIP;
умеет function calling;
поддерживает image input, но не video.

Это делает его сильным choice для:

phone/voice support;
booking/assistant flows;
realtime copilots с tool use;
speech-first customer support.

Gemini Live API

У Google Live API framing чуть шире:

low-latency live interaction;
streaming audio и video в сессии;
отдельный tool use для live sessions;
session-level configuration;
ограничения по modality и session duration, которые важно учитывать заранее.

По official docs там есть важные operational нюансы:

Live API сейчас preview;
одна session может отвечать либо TEXT, либо AUDIO, но не обеими модальностями одновременно;
audio-only и audio+video сессии имеют разные duration limits;
для client-side сценариев нужны ephemeral tokens и нормальная auth-модель.

Это уже не “просто поговорить с моделью”, а полноценная stateful multimodal session architecture.

4. Video agents: длинный контекст и temporal reasoning

Video agents полезны там, где картинка меняется со временем и важны события, а не один кадр.

Типичные use cases:

support review и QA звонков;
CCTV и operational monitoring;
анализ product demos и user sessions;
safety/incident detection;
извлечение событий из длинных записей.

Gemini video understanding

Gemini сейчас даёт один из самых практичных official video stacks:

можно передавать inline video для маленьких файлов;
большие видео грузятся через Files API;
можно ссылаться на timestamps;
есть control over clipping intervals и FPS;
docs прямо объясняют token economics для frame/audio processing.

Критично то, что Google не прячет компромисс:

по умолчанию видео сэмплируется;
default frame rate не подходит для очень быстрых сцен;
low media resolution снижает цену и latency, но режет детали.

Это именно тот тип информации, который и нужен production-команде.

Для video agents почти всегда лучше начинать не с “скормить весь поток модели”, а с event-driven sampling: low FPS по умолчанию, higher FPS или re-check только на подозрительных отрезках.

5. Не одна модель, а orchestration

Главная production-реальность мультимодальных агентов: одна модель редко оптимальна для всех модальностей сразу.

Частый healthy stack в 2026 выглядит так:

realtime audio отдельным lane;
vision/computer use отдельным lane;
video understanding отдельным offline или nearline lane;
tools и policy checks общие;
orchestration layer маршрутизирует задачу.

Такой подход лучше, чем “пусть одна самая дорогая модель делает всё”, потому что:

проще контролировать latency;
проще считать cost;
можно точнее управлять risk;
легче добавлять handoff и fallback.

6. Security и privacy в мультимодальных агентах

Чем больше модальностей, тем шире attack surface.

Нормальный baseline:

Слой	Что проверять
Audio	consent, PII, call recording policy, replay abuse
Vision	visible secrets, sensitive documents, screenshot retention
Video	retention, frame-level safety, timestamp traceability
Computer use	sandbox, domain allow-list, approval layer
Tools	schema validation, permissions, audit trail

Особенно опасны четыре антипаттерна:

хранить raw multimodal traces без redaction;
давать computer use агенту слишком широкие права;
путать data stream и instructions;
не разделять assistive mode и fully autonomous mode.

7. Когда мультимодальность реально нужна

Не добавляйте extra modality только потому, что это звучит современно.

Мультимодальный агент оправдан, если:

важная часть сигнала не живёт в тексте;
пользователь уже взаимодействует голосом, видео или экраном;
без vision/audio/video агент теряет критический контекст;
action quality становится выше при прямом восприятии интерфейса или media stream.

Не оправдан, если:

всё можно решить text+tools;
voice делается только “для вау-эффекта”;
computer use закрывает то, что уже лучше закрывается API;
video можно свести к дешёвому event detector + text pipeline.

Архитектура мультимодального оркестратора

Вместо одного “суперагента” полезнее разделять маршруты по modality:

from enum import Enum


class Lane(str, Enum):
    TEXT = "text"
    VISION = "vision"
    REALTIME_AUDIO = "realtime_audio"
    VIDEO = "video"
    COMPUTER_USE = "computer_use"


def route_task(task: dict) -> Lane:
    if task.get("live_audio"):
        return Lane.REALTIME_AUDIO
    if task.get("computer_control"):
        return Lane.COMPUTER_USE
    if task.get("video_uri"):
        return Lane.VIDEO
    if task.get("image") or task.get("pdf"):
        return Lane.VISION
    return Lane.TEXT

Этот уровень routing часто полезнее, чем попытка найти одну “лучшую мультимодальную модель”.

OpenAI-style realtime voice agent

Текущая OpenAI-рамка для voice agent'ов лучше строится через gpt-realtime:

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.openai.com/v1/realtime?model=gpt-realtime",
  { headers: { Authorization: `Bearer ${process.env.OPENAI_API_KEY}` } }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["audio"],
      instructions: "Ты голосовой ассистент службы поддержки.",
      tools: [{
        type: "function",
        name: "lookup_ticket",
        description: "Найти тикет по номеру",
        parameters: {
          type: "object",
          properties: {
            ticket_id: { type: "string" }
          },
          required: ["ticket_id"]
        }
      }]
    }
  }));
});

Практически важно:

считать audio-token economics отдельно от text;
держать turn-taking и interruption handling;
выносить sensitive actions за approval layer;
логировать tool calls отдельно от raw audio.

Gemini-style live multimodal session

Gemini Live API удобен, когда нужна одна stateful session с live media и tools:

from google import genai

client = genai.Client()

session = client.live.connect(
    model="gemini-2.5-flash-native-audio-preview-12-2025",
    config={
        "response_modalities": ["AUDIO"],
        "tools": [{
            "function_declarations": [{
                "name": "create_callback",
                "description": "Создать обратный звонок",
                "parameters": {
                    "type": "object",
                    "properties": {
                        "phone": {"type": "string"}
                    },
                    "required": ["phone"]
                }
            }]
        }]
    }
)

Здесь ключевой operational момент в том, что Live API уже не просто inference endpoint, а session protocol со своими ограничениями по modality и duration.

Video processing без бессмысленного overspend

Для video agents не нужно отправлять весь поток на максимальной детализации по умолчанию. Стартовый production-паттерн обычно такой:

def choose_video_sampling(risk_level: str) -> dict:
    if risk_level == "high":
        return {"fps": 3, "resolution": "default"}
    if risk_level == "medium":
        return {"fps": 1, "resolution": "low"}
    return {"fps": 0.2, "resolution": "low"}

Сначала делайте дешёвый pass, а затем углубляйтесь только в подозрительные сегменты.

ПромптMultimodal architecture review

У нас voice support assistant с screen-sharing и occasional browser automation. Какой baseline stack взять?

Ответ модели

Realtime audio lane для разговора.
Vision lane для screen-sharing snapshots.
Browser/computer-use lane только для GUI-only шагов.
Общие CRM tools и approval layer.
Trace logging с раздельным хранением audio, screenshots и actions.

Computer Use: управление компьютером через AI — browser/desktop automation как отдельный агентный слой
Browser-use агенты — когда Playwright и DOM лучше полного computer use
Voice AI — отдельный обзор голосовых агентов и speech stack
Vision API — как работать с изображениями, OCR, UI и графиками

Проверьте себя

1. Чем мультимодальный агент отличается от просто мультимодальной модели?

{ "text": "Ничем, это одно и то же", "correct": false, "explanation": "Нет. Агент добавляет orchestration, tools, state и action layer поверх модели." } { "text": "Агент не только воспринимает media, но и принимает решения и действует через tools", "correct": true, "explanation": "Верно. Именно связка perception + action делает систему агентной." } { "text": "Агент всегда обязан использовать только одну модель", "correct": false, "explanation": "На практике мультимодальные агенты часто multi-lane и multi-model." }

2. Какой production-паттерн обычно здоровее для мультимодальности?

{ "text": "Одна максимально дорогая модель должна делать всё сразу", "correct": false, "explanation": "Обычно это хуже по latency, cost и controllability." } { "text": "Разделить voice, vision, video и computer-use по lane'ам и маршрутизировать задачи", "correct": true, "explanation": "Да. Такой orchestration-layer проще контролировать и масштабировать." } { "text": "Отключить tools и оставить только media understanding", "correct": false, "explanation": "Тогда система перестаёт быть полноценным агентом." }

3. Что одно из самых важных ограничений Live API у Gemini?

{ "text": "В одной session нельзя выбрать одновременно response modalities TEXT и AUDIO", "correct": true, "explanation": "Да. Это важно учитывать в архитектуре сессии." } { "text": "Live API не поддерживает tools", "correct": false, "explanation": "Поддерживает, включая function calling." } { "text": "Gemini Live вообще не умеет работать с video", "correct": false, "explanation": "Live API как раз рассчитан на realtime voice/video scenarios." }

Источники

Концепция AI-агентов

Отладка и паттерны ошибок агентов