Computer Use: управление компьютером через AI

Computer Use в 2026: Claude Computer Use, OpenAI computer tool и Gemini Computer Use Preview. Как работает цикл screenshot -> analysis -> action, где это полезно и как строить безопасный sandbox.

Computer use в 2026 уже нельзя описывать только как Claude + Operator + Project Mariner. Категория быстро сдвинулась из research demo в отдельный tool-layer у нескольких вендоров: Anthropic держит desktop-oriented computer use tool в beta, OpenAI вынес browser automation в API computer tool, а Google уже даёт Computer Use прямо в Gemini API Preview.

Идея при этом не изменилась: агент видит экран, просит скриншот, анализирует интерфейс, выбирает действие и повторяет цикл до результата. Меняется другое: product framing, safety controls и то, как это встраивается в production stack.

Представьте очень медленного, но внимательного удалённого оператора. Вы даёте ему задачу, он смотрит на экран, кликает, печатает, скроллит и после каждого шага снова сверяется с экраном. Computer use делает то же самое, только через модель и sandbox, а не через человека.
Computer use не заменяет API. Это слой для GUI-only сценариев: legacy backoffice, веб-формы без нормальной интеграции, QA, кросс-приложенческие workflow. Если у системы есть API, MCP или надёжная backend-интеграция, почти всегда выгоднее использовать их.

Короткая версия

Computer use нужен, когда агент должен работать не с JSON и endpoint'ами, а с реальным интерфейсом:

  • открыть браузер или desktop app;
  • найти нужный элемент на экране;
  • кликнуть, ввести текст, проскроллить, нажать горячие клавиши;
  • проверить, что состояние экрана изменилось правильно.

В 2026 экосистема выглядит так:

  • Anthropic: computer use tool для desktop environments, beta, с жёстким упором на sandbox и human oversight.
  • OpenAI API: отдельный computer tool для browser automation; старый Operator уже не отдельный основной продукт, а его логика ушла в ChatGPT agent.
  • Google: Computer Use в Gemini API Preview; Project Mariner остаётся скорее product/research-слоем про browser agents, а не единственным способом получить capability.
ПромптComputer use agent
Открой браузер, зайди в админку поставщика, скачай CSV-отчёт за вчера и положи файл в папку reports.
Ответ модели

План: 1) открыть браузер и войти в sandbox-профиль; 2) перейти в отчёты; 3) выставить дату 'yesterday'; 4) скачать CSV; 5) проверить, что файл появился в каталоге reports. Для логина и финального подтверждения отправки потребую takeover пользователя.

Computer use
Агент открывает сайт, ищет кнопку Create report, выбирает фильтры, ждёт рендер, нажимает Download и проверяет файловую систему.
API / MCP
Один вызов backend-интеграции или MCP tool: `create_report(date='yesterday', format='csv')`.
Сначала ищите API, потом MCP, потом browser-use с DOM/Playwright, и только потом полноценный computer use по скриншотам. Чем ближе вы к GUI-пикселям, тем дороже и хрупче автоматизация.

1. Что такое computer use на практике

Computer use означает, что модель получает право управлять интерфейсом через actions вроде:

  • screenshot;
  • click / double_click;
  • type;
  • scroll;
  • drag;
  • keypress.

Вместо прямого доступа к внутреннему состоянию приложения агент работает по наблюдаемому UI. Это делает подход универсальным, но одновременно медленным и хрупким.

2. Базовый цикл: screenshot -> analysis -> action

У всех современных реализаций одна и та же основа:

Ключевая разница между платформами не в самом цикле, а в том:

  • какие actions разрешены;
  • есть ли встроенные safety handoffs;
  • работает ли агент только в браузере или в полном desktop environment;
  • какие модели поддерживают capability прямо сейчас.

3. Как выглядит рынок в 2026

Anthropic: desktop-first computer use tool

У Anthropic computer use остаётся отдельным beta tool. В текущих docs он требует beta header и живёт как capability рядом с bash и text editor, а не как магический "автопилот".

Что важно:

  • tool остаётся beta;
  • для актуальных Claude 4.6 / 4.5 используется новый tool version computer_20251124;
  • feature не подходит под Zero Data Retention;
  • Anthropic прямо рекомендует запуск только в изолированной среде и с ограниченными правами.

То есть Anthropic подаёт computer use не как consumer feature, а как dangerous-but-useful developer primitive.

OpenAI: API tool + product layer через ChatGPT agent

У OpenAI framing поменялась сильнее всего. В 2025 рынок видел это как Operator и CUA; в 2026 полезнее разделять два слоя:

  • API-layer: computer tool в OpenAI API;
  • product-layer: Operator functionality уже интегрирована в ChatGPT agent.

Это важное обновление по сравнению со старыми статьями, где всё сводилось к GPT-4o CUA. Для новых интеграций речь уже идёт не про старый research branding, а про отдельный browser automation tool внутри актуального agent stack OpenAI.

OpenAI также рекомендует handoff пользователя для чувствительных действий: смены пароля, обхода предупреждений браузера, paywall и других рискованных шагов.

Google: Gemini Computer Use Preview + Project Mariner

У Google теперь есть не только Project Mariner как research/product story, но и официальный Computer Use в Gemini API.

Что важно по docs:

  • поддерживаются модели gemini-2.5-computer-use-preview-10-2025 и gemini-3-flash-preview;
  • Google показывает browser environment через Playwright как базовый execution layer;
  • модель возвращает function calls, а исполнение действий остаётся на стороне клиента;
  • docs отдельно подчёркивают необходимость sandboxed environment.

Project Mariner при этом полезно понимать как витрину и user-facing слой про browser agents, а не как единственный API entry point.

Плюсы

  • Работает там, где нет API и нормальных интеграций
  • Подходит для браузера, legacy GUI и cross-app workflow
  • Может автоматизировать последний ручной этап в процессе
  • Полезен для QA, repetitive ops и internal backoffice

Минусы

  • Медленный: каждый шаг требует визуальной проверки
  • Хрупкий: layout shifts, popups и CAPTCHAs легко ломают сценарий
  • Дорогой: screenshots и iterative reasoning быстро съедают budget
  • Рискованный: агент видит экран и может делать side effects

4. Где computer use реально окупается

Лучшие сценарии для computer use обычно выглядят так:

  • GUI-only системы: старые ERP, внутренние панели, Windows-приложения, админки без API;
  • browser workflows: скачать отчёт, обновить карточку, пройти multi-step форму;
  • операционный glue-code: взять данные из одного интерфейса и перенести в другой;
  • UI testing и exploratory QA: агент кликает по интерфейсу как пользователь;
  • semi-automated backoffice: агент делает 90% рутины, человек подтверждает финальный шаг.

Плохие сценарии:

  • банк, платежи, irreversible actions без approval;
  • задачи, где есть стабильный API;
  • среды с секретами и широкими правами;
  • flow с тяжёлой anti-bot защитой, CAPTCHA и нестабильным UI.

5. Главные ограничения

Даже в 2026 computer use остаётся скорее last mile automation, чем универсальной заменой API.

Типичные проблемы:

  • неверная локализация маленьких элементов;
  • зависимость от масштаба, DPI и viewport;
  • всплывающие модалки и неожиданная навигация;
  • дублирующиеся кнопки вроде Save / Submit;
  • капча, 2FA и consent screens;
  • зацикливание на одном и том же действии.
Хороший демо-сценарий с браузером не гарантирует надёжность в реальном потоке задач. Production-grade computer use почти всегда требует sandbox, allow-list сайтов, retry policy, takeover points, trace logging и явные stop conditions.

6. Safety-архитектура для computer use

Нормальный safety baseline для computer use в 2026 выглядит так:

СлойЧто делать
Execution sandboxVM, container или отдельный browser profile
Network boundaryallow-list сайтов и внутренних систем
Secrets policyне хранить чувствительные данные прямо в visible desktop
Approval layertakeover перед оплатой, отправкой, удалением, сменой пароля
Trace loggingсохранять actions, screenshots, reasoning summary и errors
Stop conditionsлимит по шагам, времени и repeated failures

Если этого слоя нет, вы даёте модели слишком много власти за пределами её реальной надёжности.

7. Browser use vs full computer use

Полезно различать два класса:

Browser-use

Агент работает в браузере, часто рядом с Playwright, DOM или accessibility layer. Это обычно:

  • быстрее;
  • дешевле;
  • надёжнее для веб-задач.

Full computer use

Агент видит весь desktop или удалённую машину и работает только через UI. Это нужно, когда:

  • браузера недостаточно;
  • задача проходит через несколько приложений;
  • у desktop software нет нормального automation API.

Чем ниже уровень абстракции, тем выше цена ошибки. Поэтому browser-first исполнение обычно предпочтительнее, а full computer use стоит оставлять для реально GUI-only среды.

Универсальный цикл агента

Ниже упрощённый каркас, который подходит к логике Anthropic / OpenAI / Google: модель возвращает действия, а ваш execution layer исполняет их в sandbox и делает новый screenshot.

class ComputerEnvironment:
    def screenshot(self) -> bytes:
        raise NotImplementedError

    def execute(self, action: dict) -> None:
        raise NotImplementedError


def run_computer_task(model_client, env: ComputerEnvironment, task: str, max_steps: int = 25):
    state = {
        "task": task,
        "history": [],
    }

    for step in range(max_steps):
        screenshot = env.screenshot()
        response = model_client.next_actions(
            task=task,
            screenshot=screenshot,
            history=state["history"],
        )

        if response.get("handoff_required"):
            return {"status": "needs_user", "reason": response["handoff_required"]}

        actions = response.get("actions", [])
        if not actions:
            return {"status": "done", "history": state["history"]}

        for action in actions:
            env.execute(action)
            state["history"].append(action)

    return {"status": "stopped", "reason": "max_steps_exceeded"}

OpenAI-style action handler

В current OpenAI docs модель возвращает computer_call с массивом actions[], а приложение исполняет их последовательно. Для браузерного sandbox это может выглядеть так:

def handle_computer_actions(page, actions):
    for action in actions:
        match action.type:
            case "click":
                page.mouse.click(action.x, action.y)
            case "double_click":
                page.mouse.dblclick(action.x, action.y)
            case "scroll":
                page.mouse.wheel(
                    getattr(action, "scroll_x", 0),
                    getattr(action, "scroll_y", 0),
                )
            case "keypress":
                for key in action.keys:
                    page.keyboard.press(" " if key == "SPACE" else key)
            case "type":
                page.keyboard.type(action.text)
            case "wait":
                page.wait_for_timeout(action.ms)

Практические требования к исполнителю:

  • держать фиксированный viewport;
  • логировать каждый action и screenshot;
  • ограничивать допустимые domains;
  • уметь прерывать run после repeated failures;
  • добавлять human takeover для sensitive side effects.

Google-style browser sandbox

В Gemini docs Google прямо показывает browser environment через Playwright и подчёркивает, что продакшн-запуск должен идти в sandbox. Ещё один важный нюанс: модель может возвращать несколько действий за один turn, а координаты нормализуются и затем переводятся в пиксели на стороне исполнителя.

ПромптComputer use reviewer
У нас агент должен логиниться в B2B-портал, скачивать CSV и обновлять внутреннюю таблицу. Что проверить до запуска?
Ответ модели
  1. Есть ли API или MCP вместо GUI.
  2. Запускается ли браузер в отдельном sandbox profile.
  3. Ограничены ли доступные домены и загрузки.
  4. Есть ли handoff на логине, 2FA и финальной отправке.
  5. Пишутся ли screenshots, actions и error traces.

Проверьте себя

Проверьте себя

1. Когда computer use обычно оправдан?

2. Что изменилось в framing OpenAI относительно старых статей про Operator?

3. Какой safety baseline для computer use ближе к production?