Мультимодальные промпты в 2026: как писать запросы для image, PDF, screenshots и video inputs

Актуальный guide по multimodal prompting на 22 марта 2026: current patterns для OpenAI, Claude и Gemini, image/PDF/video inputs, extraction-first prompts, structured outputs, visual diffs и anti-patterns.

На 22 марта 2026 уже мало пользы от старой формулы "приложи картинку и напиши look-analyze-answer". Current multimodal prompting сильно шире:

inputs теперь бывают не только image, но и PDF, screenshots, multiple images и video frames;
важно не просто "что на картинке", а какой рабочий результат нужен: OCR, JSON, diff, UI review, chart extraction, evidence-based answer;
разные вендоры по-разному ведут модель по visual input: у Claude лучше класть image before text, у Gemini single-image prompt often goes after image part, у OpenAI нужно явно думать про detail.

Поэтому хорошие мультимодальные промпты в 2026 строятся не вокруг красивой формулировки, а вокруг scope, extraction, structure и verification.

Мультимодальный промпт - это не "обычный текстовый запрос плюс картинка". Это инструкция, которая должна объяснить модели:

что это за visual input;
что именно надо извлечь;
по каким критериям анализировать;
в каком формате вернуть результат.

Старый совет "просто попросите модель сначала посмотреть, потом подумать" уже недостаточен. Current best practice для multimodal tasks - задавать asset type, scope, output schema, evidence requirement и при необходимости split extraction from interpretation.

1. Главный сдвиг: промпт должен управлять visual workflow, а не просто разговором

Старые multimodal prompts были слишком общими:

"что на картинке?"
"проанализируй этот UI"
"прочитай документ"

Current production use cases требуют большего:

извлечь данные в schema;
сравнить несколько экранов;
сослаться на конкретную страницу;
определить, где модель уверена, а где нет;
вернуть output, который сразу можно отправить в pipeline.

Это означает, что хороший multimodal prompt today описывает не только вопрос, но и операцию над visual input.

2. Паттерн 1: сначала назовите asset type и рабочую задачу

Модель видит пиксели, но не знает бизнес-контекст. Скриншот дашборда, экран мобильного онбординга и PDF-отчёт требуют разной логики анализа.

Хорошая формула:

[что за asset] + [ваша роль] + [что именно нужно сделать]

Примеры:

"Это скриншот BI-дашборда для performance marketing."
"Это PDF-коммерческое предложение поставщика."
"Это мобильный checkout screen в iOS."

После этого задавайте роль:

"Ты QA analyst."
"Ты UX reviewer."
"Ты document extraction assistant."

И только потом - сам task.

ПромптAsset framing

Это PDF годового отчёта. Ты financial research assistant. Найди на страницах, где обсуждаются capex и operating margin, и верни короткую таблицу: page, metric, value, evidence.

Ответ модели

Такой prompt лучше старого 'суммируй PDF', потому что он сужает и asset, и роль, и нужный output.

3. Паттерн 2: фиксируйте scope максимально жёстко

Большая часть ошибок в multimodal prompting возникает не потому, что модель "плохо видит", а потому что scope слишком широкий.

Лучшие scope anchors:

страница 2;
верхний правый график;
левая колонка;
кнопка primary CTA;
экран A vs экран B;
секция pricing;
таблица на странице 5.

Это особенно важно для:

PDF;
dashboards;
complex UIs;
multi-image comparisons.

Если scope не задан, модель начнёт усреднять всё изображение и часто пропустит нужные детали.

4. Паттерн 3: сначала extraction, потом interpretation

Это самый полезный current pattern почти для всех visual tasks.

Плохой запрос:

"Сделай вывод по графику."

Хороший запрос:

извлеки labels and numbers;
только потом интерпретируй;
отдельно пометь, что uncertain.

Почему это работает:

снижает hallucinated details;
делает ошибки заметнее;
упрощает app-side verification;
помогает сравнить answer между vendors.

Где этот паттерн особенно полезен

OCR;
charts;
invoices;
tables in PDF;
UI inventories;
competitive screenshot analysis.

Слишком рано просит анализ

Посмотри на этот график и скажи, почему выручка упала.

Сначала extraction, потом reasoning

Сначала извлеки месяцы и значения в таблицу. Потом опиши, в какие месяцы видно падение, и только затем предложи 2-3 возможные интерпретации без утверждений о причинах как о фактах.

5. Паттерн 4: для сравнения нескольких изображений нумеруйте inputs

Current OpenAI, Claude и Gemini support multiple images. Но quality резко растёт, если вы явно назначаете идентификаторы:

Image A;
Image B;
Current screen;
New screen;
Page 1, Page 2.

После этого просите не просто "сравнить", а вернуть:

common elements;
differences;
regressions;
missing parts;
confidence / uncertain items.

Это особенно полезно в:

design reviews;
QA diffs;
before/after audits;
document version comparison.

6. Паттерн 5: требуйте structure, а не красивый текст

Если output нужен в production, prose almost always worse than structure.

Хорошие форматы:

JSON;
markdown table;
checklist;
pass / warning / fail;
field / value / evidence;
issue / severity / recommendation.

Для visual tasks structure важен даже сильнее, чем в text-only prompts, потому что:

модель может смешать observation и inference;
app потом трудно валидировать narrative;
human reviewer быстрее проверяет structured output.

7. Паттерн 6: просите evidence и uncertainty

В multimodal prompts важно не только "что видишь", но и "насколько уверен".

Полезные фразы:

"Если текст нечитабелен, пометь uncertain."
"Не выдумывай скрытые элементы интерфейса."
"Ссылайся на page/section/region."
"Отдельно перечисли assumptions."

Это особенно важно для:

blurry photos;
charts with tiny labels;
screenshots with dense tables;
scans and camera photos.

8. Provider-specific нюансы действительно влияют на промпт

OpenAI

Current OpenAI docs по images and vision фиксируют:

input_image in Responses API;
multiple images in one request;
URL, base64 и file_id;
detail: low / high / original / auto.

Практически это значит:

для dense screenshots and small text лучше явно задавать high или original;
для cheap classification-like tasks можно идти в low;
visual prompt стоит проектировать вместе с cost/latency expectations.

Claude

Anthropic vision docs прямо говорят, что Claude often works best when images come before text.

Практический вывод:

сначала image or document block;
потом textual instruction;
в PDF cases explicitly refer to pages and evidence.

Gemini

Gemini docs по image/document understanding указывают две полезные вещи:

single image prompt often works best, when prompt идёт после image part;
media_resolution now matters for text-heavy or detail-heavy media.

Практический вывод:

не treat Gemini as black box;
thinking about media resolution is part of prompt design, not only model config.

9. Practical templates

OCR / extraction

Это скриншот invoice.
Сначала извлеки поля:
- vendor_name
- invoice_number
- invoice_date
- total_amount
- currency

Верни JSON.
Если поле не видно или оно неоднозначно, верни null и добавь reason.

Chart analysis

Это monthly revenue chart.
Шаг 1: извлеки оси, легенду и значения по периодам в таблицу.
Шаг 2: укажи заметные скачки или падения.
Шаг 3: отдельно перечисли, какие выводы являются наблюдениями, а какие интерпретациями.

UI review

Это iOS checkout screen.
Проведи review по критериям:
1. hierarchy
2. CTA clarity
3. error prevention
4. trust signals

Сначала перечисли видимые элементы.
Затем верни checklist:
- criterion
- pass|warning|fail
- evidence
- recommendation

Visual diff

Image A — current settings page.
Image B — redesigned settings page.

Сравни только visible UI.
Верни:
- unchanged elements
- added elements
- removed elements
- possible regressions
- uncertain items

10. Антипаттерны

Самые частые multimodal prompt failures:

просить сразу "сделай вывод", не попросив extraction;
не указывать asset type;
не фиксировать page/region/frame;
ждать perfect OCR на низком resolution;
не просить structured output;
смешивать несколько задач в одном vague prompt без step order.

11. Для production-команд

Если multimodal prompts идут в продукт, полезный minimum set такой:

prompt versioning;
output schema;
uncertainty field;
golden examples for eval;
regression set of screenshots/PDFs;
route-specific configs for detail / media resolution.

Именно здесь prompt design перестаёт быть "copywriting for AI" и становится частью system design.

Плюсы

Current multimodal prompting стал гораздо более управляемым, если задавать scope, extraction order и structure
Provider-specific нюансы реально улучшают качество: OpenAI detail, Claude image-before-text, Gemini media-aware prompting
Extraction-first prompts заметно снижают ошибки на OCR, charts и PDFs
Structured outputs делают visual workflows production-friendly

Минусы

Старые vague prompts быстро разваливаются на complex screenshots, PDFs и dense charts
Одного 'best prompt' для всех vendors и media types не существует
Visual tasks всё ещё чувствительны к resolution, layout noise и ambiguous text
Без uncertainty and evidence fields multimodal answers трудно надёжно использовать в pipeline

Проверьте себя

1. Какой prompt обычно надёжнее для графика?

{ "text": "Сразу попросить финальный вывод о причинах изменений", "correct": false, "explanation": "Нет. Это смешивает extraction и interpretation." } { "text": "Сначала извлечь labels и values, потом отдельно интерпретировать", "correct": true, "explanation": "Верно. Это главный current pattern для chart reasoning." } { "text": "Не писать текст вообще, только прикрепить график", "correct": false, "explanation": "Нет. Без scope модель даёт более общий ответ." }

2. Зачем в multimodal prompt просить evidence или uncertainty?

{ "text": "Чтобы отличать уверенно прочитанные детали от сомнительных и не превращать inference в факт", "correct": true, "explanation": "Да. Это особенно важно для OCR, PDF и dense screenshots." } { "text": "Чтобы модель отвечала дольше", "correct": false, "explanation": "Нет. Цель не в длине ответа." } { "text": "Чтобы обойти лимит токенов", "correct": false, "explanation": "Нет. Это не связано с токен-лимитами." }

3. Что из этого лучше всего отражает current multimodal prompting?

{ "text": "Один универсальный prompt подходит для image, PDF, dashboard и UI", "correct": false, "explanation": "Нет. Asset type and task shape matter." } { "text": "Prompt design должен учитывать asset type, scope, output schema и vendor-specific behavior", "correct": true, "explanation": "Верно. Именно так сейчас и строятся надёжные workflows." } { "text": "Главное - просить модель быть умной, остальное не важно", "correct": false, "explanation": "Нет. Concrete constraints matter more." }

Источники

Аудио и видео в 2026: transcribe, audio understanding, speech generation и AI music workflows