Мультимодальные промпты в 2026: как писать запросы для image, PDF, screenshots и video inputs

Актуальный guide по multimodal prompting на 22 марта 2026: current patterns для OpenAI, Claude и Gemini, image/PDF/video inputs, extraction-first prompts, structured outputs, visual diffs и anti-patterns.

На 22 марта 2026 уже мало пользы от старой формулы "приложи картинку и напиши look-analyze-answer". Current multimodal prompting сильно шире:

  • inputs теперь бывают не только image, но и PDF, screenshots, multiple images и video frames;
  • важно не просто "что на картинке", а какой рабочий результат нужен: OCR, JSON, diff, UI review, chart extraction, evidence-based answer;
  • разные вендоры по-разному ведут модель по visual input: у Claude лучше класть image before text, у Gemini single-image prompt often goes after image part, у OpenAI нужно явно думать про detail.

Поэтому хорошие мультимодальные промпты в 2026 строятся не вокруг красивой формулировки, а вокруг scope, extraction, structure и verification.

Мультимодальный промпт - это не "обычный текстовый запрос плюс картинка". Это инструкция, которая должна объяснить модели:
  • что это за visual input;
  • что именно надо извлечь;
  • по каким критериям анализировать;
  • в каком формате вернуть результат.
Старый совет "просто попросите модель сначала посмотреть, потом подумать" уже недостаточен. Current best practice для multimodal tasks - задавать asset type, scope, output schema, evidence requirement и при необходимости split extraction from interpretation.

Краткая версия

Хороший multimodal prompt в 2026 почти всегда делает пять вещей:

  1. называет тип input: скриншот, PDF, dashboard, mobile screen, invoice;
  2. ограничивает scope: page 3, верхний график, экран B, правый sidebar;
  3. просит сначала извлечь факты, а потом интерпретировать;
  4. задаёт format: JSON, table, checklist, pass/fail;
  5. просит явно отмечать uncertainty, если текст или layout нечитабельны.
Плохой prompt
Что на этом скриншоте и есть ли проблемы?
Хороший prompt
Это экран checkout в iOS. Проведи UX-review по 4 критериям: hierarchy, CTA clarity, error states, trust signals. Сначала перечисли видимые элементы, потом дай verdict по каждому критерию в формате JSON.
ПромптMultimodal prompting
На изображении — график monthly revenue. Сначала извлеки подписи осей и значения по месяцам в таблицу. Затем отдельно опиши тренд и возможные аномалии. Если какая-то цифра нечитабельна, пометь её как uncertain.
Ответ модели

Такой prompt почти всегда надёжнее, чем просьба 'проанализируй график', потому что он разделяет extraction и interpretation.

1. Главный сдвиг: промпт должен управлять visual workflow, а не просто разговором

Старые multimodal prompts были слишком общими:

  • "что на картинке?"
  • "проанализируй этот UI"
  • "прочитай документ"

Current production use cases требуют большего:

  • извлечь данные в schema;
  • сравнить несколько экранов;
  • сослаться на конкретную страницу;
  • определить, где модель уверена, а где нет;
  • вернуть output, который сразу можно отправить в pipeline.

Это означает, что хороший multimodal prompt today описывает не только вопрос, но и операцию над visual input.

2. Паттерн 1: сначала назовите asset type и рабочую задачу

Модель видит пиксели, но не знает бизнес-контекст. Скриншот дашборда, экран мобильного онбординга и PDF-отчёт требуют разной логики анализа.

Хорошая формула:

[что за asset] + [ваша роль] + [что именно нужно сделать]

Примеры:

  • "Это скриншот BI-дашборда для performance marketing."
  • "Это PDF-коммерческое предложение поставщика."
  • "Это мобильный checkout screen в iOS."

После этого задавайте роль:

  • "Ты QA analyst."
  • "Ты UX reviewer."
  • "Ты document extraction assistant."

И только потом - сам task.

ПромптAsset framing
Это PDF годового отчёта. Ты financial research assistant. Найди на страницах, где обсуждаются capex и operating margin, и верни короткую таблицу: page, metric, value, evidence.
Ответ модели

Такой prompt лучше старого 'суммируй PDF', потому что он сужает и asset, и роль, и нужный output.

3. Паттерн 2: фиксируйте scope максимально жёстко

Большая часть ошибок в multimodal prompting возникает не потому, что модель "плохо видит", а потому что scope слишком широкий.

Лучшие scope anchors:

  • страница 2;
  • верхний правый график;
  • левая колонка;
  • кнопка primary CTA;
  • экран A vs экран B;
  • секция pricing;
  • таблица на странице 5.

Это особенно важно для:

  • PDF;
  • dashboards;
  • complex UIs;
  • multi-image comparisons.

Если scope не задан, модель начнёт усреднять всё изображение и часто пропустит нужные детали.

4. Паттерн 3: сначала extraction, потом interpretation

Это самый полезный current pattern почти для всех visual tasks.

Плохой запрос:

  • "Сделай вывод по графику."

Хороший запрос:

  1. извлеки labels and numbers;
  2. только потом интерпретируй;
  3. отдельно пометь, что uncertain.

Почему это работает:

  • снижает hallucinated details;
  • делает ошибки заметнее;
  • упрощает app-side verification;
  • помогает сравнить answer между vendors.

Где этот паттерн особенно полезен

  • OCR;
  • charts;
  • invoices;
  • tables in PDF;
  • UI inventories;
  • competitive screenshot analysis.
Слишком рано просит анализ
Посмотри на этот график и скажи, почему выручка упала.
Сначала extraction, потом reasoning
Сначала извлеки месяцы и значения в таблицу. Потом опиши, в какие месяцы видно падение, и только затем предложи 2-3 возможные интерпретации без утверждений о причинах как о фактах.

5. Паттерн 4: для сравнения нескольких изображений нумеруйте inputs

Current OpenAI, Claude и Gemini support multiple images. Но quality резко растёт, если вы явно назначаете идентификаторы:

  • Image A;
  • Image B;
  • Current screen;
  • New screen;
  • Page 1, Page 2.

После этого просите не просто "сравнить", а вернуть:

  • common elements;
  • differences;
  • regressions;
  • missing parts;
  • confidence / uncertain items.

Это особенно полезно в:

  • design reviews;
  • QA diffs;
  • before/after audits;
  • document version comparison.

6. Паттерн 5: требуйте structure, а не красивый текст

Если output нужен в production, prose almost always worse than structure.

Хорошие форматы:

  • JSON;
  • markdown table;
  • checklist;
  • pass / warning / fail;
  • field / value / evidence;
  • issue / severity / recommendation.

Для visual tasks structure важен даже сильнее, чем в text-only prompts, потому что:

  • модель может смешать observation и inference;
  • app потом трудно валидировать narrative;
  • human reviewer быстрее проверяет structured output.

7. Паттерн 6: просите evidence и uncertainty

В multimodal prompts важно не только "что видишь", но и "насколько уверен".

Полезные фразы:

  • "Если текст нечитабелен, пометь uncertain."
  • "Не выдумывай скрытые элементы интерфейса."
  • "Ссылайся на page/section/region."
  • "Отдельно перечисли assumptions."

Это особенно важно для:

  • blurry photos;
  • charts with tiny labels;
  • screenshots with dense tables;
  • scans and camera photos.

8. Provider-specific нюансы действительно влияют на промпт

OpenAI

Current OpenAI docs по images and vision фиксируют:

  • input_image in Responses API;
  • multiple images in one request;
  • URL, base64 и file_id;
  • detail: low / high / original / auto.

Практически это значит:

  • для dense screenshots and small text лучше явно задавать high или original;
  • для cheap classification-like tasks можно идти в low;
  • visual prompt стоит проектировать вместе с cost/latency expectations.

Claude

Anthropic vision docs прямо говорят, что Claude often works best when images come before text.

Практический вывод:

  • сначала image or document block;
  • потом textual instruction;
  • в PDF cases explicitly refer to pages and evidence.

Gemini

Gemini docs по image/document understanding указывают две полезные вещи:

  • single image prompt often works best, when prompt идёт после image part;
  • media_resolution now matters for text-heavy or detail-heavy media.

Практический вывод:

  • не treat Gemini as black box;
  • thinking about media resolution is part of prompt design, not only model config.

9. Practical templates

OCR / extraction

Это скриншот invoice.
Сначала извлеки поля:
- vendor_name
- invoice_number
- invoice_date
- total_amount
- currency

Верни JSON.
Если поле не видно или оно неоднозначно, верни null и добавь reason.

Chart analysis

Это monthly revenue chart.
Шаг 1: извлеки оси, легенду и значения по периодам в таблицу.
Шаг 2: укажи заметные скачки или падения.
Шаг 3: отдельно перечисли, какие выводы являются наблюдениями, а какие интерпретациями.

UI review

Это iOS checkout screen.
Проведи review по критериям:
1. hierarchy
2. CTA clarity
3. error prevention
4. trust signals

Сначала перечисли видимые элементы.
Затем верни checklist:
- criterion
- pass|warning|fail
- evidence
- recommendation

Visual diff

Image A — current settings page.
Image B — redesigned settings page.

Сравни только visible UI.
Верни:
- unchanged elements
- added elements
- removed elements
- possible regressions
- uncertain items

10. Антипаттерны

Самые частые multimodal prompt failures:

  • просить сразу "сделай вывод", не попросив extraction;
  • не указывать asset type;
  • не фиксировать page/region/frame;
  • ждать perfect OCR на низком resolution;
  • не просить structured output;
  • смешивать несколько задач в одном vague prompt без step order.

11. Для production-команд

Если multimodal prompts идут в продукт, полезный minimum set такой:

  • prompt versioning;
  • output schema;
  • uncertainty field;
  • golden examples for eval;
  • regression set of screenshots/PDFs;
  • route-specific configs for detail / media resolution.

Именно здесь prompt design перестаёт быть "copywriting for AI" и становится частью system design.

Плюсы

  • Current multimodal prompting стал гораздо более управляемым, если задавать scope, extraction order и structure
  • Provider-specific нюансы реально улучшают качество: OpenAI detail, Claude image-before-text, Gemini media-aware prompting
  • Extraction-first prompts заметно снижают ошибки на OCR, charts и PDFs
  • Structured outputs делают visual workflows production-friendly

Минусы

  • Старые vague prompts быстро разваливаются на complex screenshots, PDFs и dense charts
  • Одного 'best prompt' для всех vendors и media types не существует
  • Visual tasks всё ещё чувствительны к resolution, layout noise и ambiguous text
  • Без uncertainty and evidence fields multimodal answers трудно надёжно использовать в pipeline

Проверьте себя

Проверьте себя

1. Какой prompt обычно надёжнее для графика?

2. Зачем в multimodal prompt просить evidence или uncertainty?

3. Что из этого лучше всего отражает current multimodal prompting?