Browser-use агенты в 2026: AI работает с браузером
Browser-use агенты в 2026: Playwright MCP, Browserbase MCP, Stagehand и Browser Use. Когда нужен DOM-first браузерный агент, а когда full computer use.
Browser-use агенты в 2026 уже нельзя описывать как набор разрозненных open-source хаков вроде browser-use + Stagehand + старый Playwright MCP из anthropic-quickstarts. Категория стала намного конкретнее: есть официальный @playwright/mcp от Microsoft, managed browser stack от Browserbase и Browser Use как отдельный OSS-plus-cloud слой с профилями, stealth и session lifecycle.
Главная идея не изменилась: агент работает не через внутренний API сайта, а через браузерный интерфейс. Но product framing стало заметно взрослее. Вопрос теперь не "может ли LLM кликать по сайту", а "какой execution layer выбрать: deterministic DOM automation, managed browser infrastructure или полноценный computer use по скриншотам".
Browser-use агент - это AI-агент, который умеет открывать сайт, кликать по элементам, заполнять формы, собирать данные и проходить многошаговые web-flow. Разница с обычным скрейпером в том, что агент понимает задачу на естественном языке и может адаптироваться к интерфейсу, а не только следовать жёстким CSS-селекторам.
Сначала ищите API. Потом MCP или обычную Playwright-автоматизацию. Потом browser-use слой. И только в самом конце - full computer use по скриншотам. Чем ближе вы к GUI и антибот-защите, тем выше цена ошибки, latency и операционные риски.
Browser-use агенты нужны, когда у системы нет нормального API, но есть веб-интерфейс, через который реально выполнять работу:
войти в кабинет;
пройти multi-step форму;
скачать отчёт;
собрать данные с нескольких страниц;
проверить UI как пользователь.
В 2026 рынок удобно читать так:
Playwright MCP: официальный @playwright/mcp от Microsoft. Лучший вариант, когда агенту нужен надёжный DOM-first доступ к браузеру через MCP.
Stagehand / Browserbase MCP: natural-language browser automation поверх managed browser infrastructure. Подходит, когда важны hosted sessions, session reuse, observability и меньше ручной возни с исполнением.
Browser Use: Python-first стек для OSS и cloud browser automation. Сильная сторона - sessions, profiles, auth, stealth, proxies и production-friendly browser layer.
Browser-use
Агент открывает сайт поставщика, логинится, ищет раздел Invoices, выставляет даты, нажимает Download и проверяет, что CSV скачался.
API / MCP / backend
Один вызов backend-интеграции или MCP tool: `download_invoices(period='last_month')`.
Нужен Python-first stack с профилями, stealth и auth workflows
Browser Use
Нужен не только браузер, а весь desktop / GUI
Computer Use
ПромптBrowser agent reviewer
У нас агент должен войти в B2B-портал, скачать вчерашний CSV и обновить внутреннюю таблицу. Что проверить до запуска?
Ответ модели
Есть ли API или MCP вместо web UI.
Как хранится login state: profile, cookies или ручной handoff.
Есть ли allow-list доменов и лимит по шагам.
Пишутся ли traces, screenshots и session recordings.
Что делать на CAPTCHA, 2FA и repeated failures.
Browser-use почти всегда лучше для веб-задач: он ближе к DOM, accessibility tree и browser session state. Full computer use нужен, когда задача выходит за пределы браузера или требует работы с несколькими GUI-приложениями.
Официальный Playwright MCP теперь живёт в репозитории Microsoft microsoft/playwright-mcp, а не в старом quickstart-репо Anthropic. Для большинства MCP-клиентов это уже стандартный способ дать агенту браузерные инструменты:
Stagehand от Browserbase полезно мыслить не как "ещё один Playwright wrapper", а как AI-first browser automation framework. Его current framing строится вокруг четырёх primitives:
act() для одного действия;
extract() для структурированного извлечения;
observe() для состояния страницы;
agent() для multi-step workflow.
Это хороший слой между raw browser control и полноценным автономным агентом. Если вам нужен hybrid-подход "часть шагов кодом, часть шагов моделью", Stagehand обычно удобнее, чем писать весь loop вручную на Playwright.
Ещё один важный плюс: Browserbase явно строит вокруг этого session inspector и hosted execution, то есть речь не только про SDK, но и про operational browser platform.
Browserbase вынес этот же подход в отдельный Browserbase MCP Server. В docs они прямо рекомендуют hosted Streamable HTTP endpoint для большинства пользователей, а local stdio оставляют как вариант для кастомизации.
Это важный сдвиг рынка:
MCP перестал быть только локальным stdio-миром;
browser automation всё чаще подаётся как hosted service с persistent sessions;
browser stack всё сильнее похож на infrastructure layer, а не просто на npm-пакет.
Если вам нужен MCP-клиент плюс облачный браузер, Browserbase MCP обычно ближе к production, чем запускать всё локально через голый Playwright.
handoff перед оплатой, отправкой, удалением, сменой пароля
Failure policy
retries, stop conditions, escalation to human
Хорошая эвристика простая: если вы не можете ответить, какой profile использует агент, где посмотреть replay и кто подтверждает irreversible action, у вас ещё нет production browser agent.
Browser-use в 2026 - это уже не "магия, которая сама ходит по сайтам", а отдельный инженерный слой между API-first automation и full computer use.
Если нужен самый прямой путь для агентного IDE-клиента - обычно хватит @playwright/mcp.
Если нужен managed browser runtime - смотрите в сторону Browserbase MCP и Stagehand.
Если нужен Python-first стек с профилями, auth и stealth - Browser Use выглядит сильнее большинства простых wrapper-подходов.
Но базовое правило не изменилось: чем быстрее вы можете заменить browser flow нормальной интеграцией, тем надёжнее будет система.