Computer Use: управление компьютером через AI

Computer Use в 2026: Claude Computer Use, OpenAI computer tool и Gemini Computer Use Preview. Как работает цикл screenshot -> analysis -> action, где это полезно и как строить безопасный sandbox.

Computer use в 2026 уже нельзя описывать только как Claude + Operator + Project Mariner. Категория быстро сдвинулась из research demo в отдельный tool-layer у нескольких вендоров: Anthropic держит desktop-oriented computer use tool в beta, OpenAI вынес browser automation в API computer tool, а Google уже даёт Computer Use прямо в Gemini API Preview.

Идея при этом не изменилась: агент видит экран, просит скриншот, анализирует интерфейс, выбирает действие и повторяет цикл до результата. Меняется другое: product framing, safety controls и то, как это встраивается в production stack.

Представьте очень медленного, но внимательного удалённого оператора. Вы даёте ему задачу, он смотрит на экран, кликает, печатает, скроллит и после каждого шага снова сверяется с экраном. Computer use делает то же самое, только через модель и sandbox, а не через человека.

Computer use не заменяет API. Это слой для GUI-only сценариев: legacy backoffice, веб-формы без нормальной интеграции, QA, кросс-приложенческие workflow. Если у системы есть API, MCP или надёжная backend-интеграция, почти всегда выгоднее использовать их.

Короткая версия

Computer use нужен, когда агент должен работать не с JSON и endpoint'ами, а с реальным интерфейсом:

открыть браузер или desktop app;
найти нужный элемент на экране;
кликнуть, ввести текст, проскроллить, нажать горячие клавиши;
проверить, что состояние экрана изменилось правильно.

В 2026 экосистема выглядит так:

Anthropic: computer use tool для desktop environments, beta, с жёстким упором на sandbox и human oversight.
OpenAI API: отдельный computer tool для browser automation; старый Operator уже не отдельный основной продукт, а его логика ушла в ChatGPT agent.
Google: Computer Use в Gemini API Preview; Project Mariner остаётся скорее product/research-слоем про browser agents, а не единственным способом получить capability.

ПромптComputer use agent

Открой браузер, зайди в админку поставщика, скачай CSV-отчёт за вчера и положи файл в папку reports.

Ответ модели

План: 1) открыть браузер и войти в sandbox-профиль; 2) перейти в отчёты; 3) выставить дату 'yesterday'; 4) скачать CSV; 5) проверить, что файл появился в каталоге reports. Для логина и финального подтверждения отправки потребую takeover пользователя.

Computer use

Агент открывает сайт, ищет кнопку Create report, выбирает фильтры, ждёт рендер, нажимает Download и проверяет файловую систему.

API / MCP

Один вызов backend-интеграции или MCP tool: `create_report(date='yesterday', format='csv')`.

Сначала ищите API, потом MCP, потом browser-use с DOM/Playwright, и только потом полноценный computer use по скриншотам. Чем ближе вы к GUI-пикселям, тем дороже и хрупче автоматизация.

1. Что такое computer use на практике

Computer use означает, что модель получает право управлять интерфейсом через actions вроде:

screenshot;
click / double_click;
type;
scroll;
drag;
keypress.

Вместо прямого доступа к внутреннему состоянию приложения агент работает по наблюдаемому UI. Это делает подход универсальным, но одновременно медленным и хрупким.

2. Базовый цикл: screenshot -> analysis -> action

У всех современных реализаций одна и та же основа:

Ключевая разница между платформами не в самом цикле, а в том:

какие actions разрешены;
есть ли встроенные safety handoffs;
работает ли агент только в браузере или в полном desktop environment;
какие модели поддерживают capability прямо сейчас.

3. Как выглядит рынок в 2026

Anthropic: desktop-first computer use tool

У Anthropic computer use остаётся отдельным beta tool. В текущих docs он требует beta header и живёт как capability рядом с bash и text editor, а не как магический "автопилот".

Что важно:

tool остаётся beta;
для актуальных Claude 4.6 / 4.5 используется новый tool version computer_20251124;
feature не подходит под Zero Data Retention;
Anthropic прямо рекомендует запуск только в изолированной среде и с ограниченными правами.

То есть Anthropic подаёт computer use не как consumer feature, а как dangerous-but-useful developer primitive.

OpenAI: API tool + product layer через ChatGPT agent

У OpenAI framing поменялась сильнее всего. В 2025 рынок видел это как Operator и CUA; в 2026 полезнее разделять два слоя:

API-layer: computer tool в OpenAI API;
product-layer: Operator functionality уже интегрирована в ChatGPT agent.

Это важное обновление по сравнению со старыми статьями, где всё сводилось к GPT-4o CUA. Для новых интеграций речь уже идёт не про старый research branding, а про отдельный browser automation tool внутри актуального agent stack OpenAI.

OpenAI также рекомендует handoff пользователя для чувствительных действий: смены пароля, обхода предупреждений браузера, paywall и других рискованных шагов.

Google: Gemini Computer Use Preview + Project Mariner

У Google теперь есть не только Project Mariner как research/product story, но и официальный Computer Use в Gemini API.

Что важно по docs:

поддерживаются модели gemini-2.5-computer-use-preview-10-2025 и gemini-3-flash-preview;
Google показывает browser environment через Playwright как базовый execution layer;
модель возвращает function calls, а исполнение действий остаётся на стороне клиента;
docs отдельно подчёркивают необходимость sandboxed environment.

Project Mariner при этом полезно понимать как витрину и user-facing слой про browser agents, а не как единственный API entry point.

Плюсы

Работает там, где нет API и нормальных интеграций
Подходит для браузера, legacy GUI и cross-app workflow
Может автоматизировать последний ручной этап в процессе
Полезен для QA, repetitive ops и internal backoffice

Минусы

Медленный: каждый шаг требует визуальной проверки
Хрупкий: layout shifts, popups и CAPTCHAs легко ломают сценарий
Дорогой: screenshots и iterative reasoning быстро съедают budget
Рискованный: агент видит экран и может делать side effects

4. Где computer use реально окупается

Лучшие сценарии для computer use обычно выглядят так:

GUI-only системы: старые ERP, внутренние панели, Windows-приложения, админки без API;
browser workflows: скачать отчёт, обновить карточку, пройти multi-step форму;
операционный glue-code: взять данные из одного интерфейса и перенести в другой;
UI testing и exploratory QA: агент кликает по интерфейсу как пользователь;
semi-automated backoffice: агент делает 90% рутины, человек подтверждает финальный шаг.

Плохие сценарии:

банк, платежи, irreversible actions без approval;
задачи, где есть стабильный API;
среды с секретами и широкими правами;
flow с тяжёлой anti-bot защитой, CAPTCHA и нестабильным UI.

5. Главные ограничения

Даже в 2026 computer use остаётся скорее last mile automation, чем универсальной заменой API.

Типичные проблемы:

неверная локализация маленьких элементов;
зависимость от масштаба, DPI и viewport;
всплывающие модалки и неожиданная навигация;
дублирующиеся кнопки вроде Save / Submit;
капча, 2FA и consent screens;
зацикливание на одном и том же действии.

Хороший демо-сценарий с браузером не гарантирует надёжность в реальном потоке задач. Production-grade computer use почти всегда требует sandbox, allow-list сайтов, retry policy, takeover points, trace logging и явные stop conditions.

6. Safety-архитектура для computer use

Нормальный safety baseline для computer use в 2026 выглядит так:

Слой	Что делать
Execution sandbox	VM, container или отдельный browser profile
Network boundary	allow-list сайтов и внутренних систем
Secrets policy	не хранить чувствительные данные прямо в visible desktop
Approval layer	takeover перед оплатой, отправкой, удалением, сменой пароля
Trace logging	сохранять actions, screenshots, reasoning summary и errors
Stop conditions	лимит по шагам, времени и repeated failures

Если этого слоя нет, вы даёте модели слишком много власти за пределами её реальной надёжности.

7. Browser use vs full computer use

Полезно различать два класса:

Browser-use

Агент работает в браузере, часто рядом с Playwright, DOM или accessibility layer. Это обычно:

быстрее;
дешевле;
надёжнее для веб-задач.

Full computer use

Агент видит весь desktop или удалённую машину и работает только через UI. Это нужно, когда:

браузера недостаточно;
задача проходит через несколько приложений;
у desktop software нет нормального automation API.

Чем ниже уровень абстракции, тем выше цена ошибки. Поэтому browser-first исполнение обычно предпочтительнее, а full computer use стоит оставлять для реально GUI-only среды.

Универсальный цикл агента

Ниже упрощённый каркас, который подходит к логике Anthropic / OpenAI / Google: модель возвращает действия, а ваш execution layer исполняет их в sandbox и делает новый screenshot.

class ComputerEnvironment:
    def screenshot(self) -> bytes:
        raise NotImplementedError

    def execute(self, action: dict) -> None:
        raise NotImplementedError


def run_computer_task(model_client, env: ComputerEnvironment, task: str, max_steps: int = 25):
    state = {
        "task": task,
        "history": [],
    }

    for step in range(max_steps):
        screenshot = env.screenshot()
        response = model_client.next_actions(
            task=task,
            screenshot=screenshot,
            history=state["history"],
        )

        if response.get("handoff_required"):
            return {"status": "needs_user", "reason": response["handoff_required"]}

        actions = response.get("actions", [])
        if not actions:
            return {"status": "done", "history": state["history"]}

        for action in actions:
            env.execute(action)
            state["history"].append(action)

    return {"status": "stopped", "reason": "max_steps_exceeded"}

OpenAI-style action handler

В current OpenAI docs модель возвращает computer_call с массивом actions[], а приложение исполняет их последовательно. Для браузерного sandbox это может выглядеть так:

def handle_computer_actions(page, actions):
    for action in actions:
        match action.type:
            case "click":
                page.mouse.click(action.x, action.y)
            case "double_click":
                page.mouse.dblclick(action.x, action.y)
            case "scroll":
                page.mouse.wheel(
                    getattr(action, "scroll_x", 0),
                    getattr(action, "scroll_y", 0),
                )
            case "keypress":
                for key in action.keys:
                    page.keyboard.press(" " if key == "SPACE" else key)
            case "type":
                page.keyboard.type(action.text)
            case "wait":
                page.wait_for_timeout(action.ms)

Практические требования к исполнителю:

держать фиксированный viewport;
логировать каждый action и screenshot;
ограничивать допустимые domains;
уметь прерывать run после repeated failures;
добавлять human takeover для sensitive side effects.

Google-style browser sandbox

В Gemini docs Google прямо показывает browser environment через Playwright и подчёркивает, что продакшн-запуск должен идти в sandbox. Ещё один важный нюанс: модель может возвращать несколько действий за один turn, а координаты нормализуются и затем переводятся в пиксели на стороне исполнителя.

ПромптComputer use reviewer

У нас агент должен логиниться в B2B-портал, скачивать CSV и обновлять внутреннюю таблицу. Что проверить до запуска?

Ответ модели

Есть ли API или MCP вместо GUI.
Запускается ли браузер в отдельном sandbox profile.
Ограничены ли доступные домены и загрузки.
Есть ли handoff на логине, 2FA и финальной отправке.
Пишутся ли screenshots, actions и error traces.

Browser-use агенты — когда DOM и Playwright лучше полного computer use
Мультимодальные AI-агенты — как vision, audio и tools собираются в один агентный слой
Безопасность LLM в 2026 — как закрывать prompt injection, tool abuse и approval layer
AI Red Teaming в 2026 — как тестировать attack surface агентных систем до релиза

Проверьте себя

1. Когда computer use обычно оправдан?

{ "text": "Когда у системы уже есть стабильный API, но хочется сделать 'как человек'", "correct": false, "explanation": "Нет. При наличии API или MCP computer use обычно проигрывает по скорости, цене и надёжности." } { "text": "Когда задача проходит через GUI-only систему или несколько интерфейсов без нормальной интеграции", "correct": true, "explanation": "Верно. Это типичный last-mile сценарий для computer use." } { "text": "Когда нужно максимально предсказуемое и быстрое выполнение", "correct": false, "explanation": "Это как раз слабая сторона computer use." }

2. Что изменилось в framing OpenAI относительно старых статей про Operator?

{ "text": "Operator остался единственным основным способом получить capability", "correct": false, "explanation": "Нет. Логику computer use нужно мыслить через API tool и ChatGPT agent layer." } { "text": "Computer use у OpenAI лучше описывать как API tool плюс product-layer через ChatGPT agent", "correct": true, "explanation": "Да. Это точнее, чем старая рамка 'просто Operator на GPT-4o'." } { "text": "OpenAI полностью отказалась от browser automation", "correct": false, "explanation": "Нет. Capability осталась, но product framing изменился." }

3. Какой safety baseline для computer use ближе к production?

{ "text": "Запускать агента на основном рабочем ноутбуке с полным доступом", "correct": false, "explanation": "Это самый рискованный вариант." } { "text": "Использовать sandbox, approval layer, domain allow-list и trace logging", "correct": true, "explanation": "Верно. Для computer use это минимально разумная архитектура." } { "text": "Полагаться только на system prompt и не ограничивать execution environment", "correct": false, "explanation": "Одного prompt недостаточно для side-effect capable agent." }

Источники

Claude Agent SDK

MCP (Model Context Protocol)