Computer Use в 2026: Claude Computer Use, OpenAI computer tool и Gemini Computer Use Preview. Как работает цикл screenshot -> analysis -> action, где это полезно и как строить безопасный sandbox.
Computer use в 2026 уже нельзя описывать только как Claude + Operator + Project Mariner. Категория быстро сдвинулась из research demo в отдельный tool-layer у нескольких вендоров: Anthropic держит desktop-oriented computer use tool в beta, OpenAI вынес browser automation в API computer tool, а Google уже даёт Computer Use прямо в Gemini API Preview.
Идея при этом не изменилась: агент видит экран, просит скриншот, анализирует интерфейс, выбирает действие и повторяет цикл до результата. Меняется другое: product framing, safety controls и то, как это встраивается в production stack.
Представьте очень медленного, но внимательного удалённого оператора. Вы даёте ему задачу, он смотрит на экран, кликает, печатает, скроллит и после каждого шага снова сверяется с экраном. Computer use делает то же самое, только через модель и sandbox, а не через человека.
Computer use не заменяет API. Это слой для GUI-only сценариев: legacy backoffice, веб-формы без нормальной интеграции, QA, кросс-приложенческие workflow. Если у системы есть API, MCP или надёжная backend-интеграция, почти всегда выгоднее использовать их.
проверить, что состояние экрана изменилось правильно.
В 2026 экосистема выглядит так:
Anthropic: computer use tool для desktop environments, beta, с жёстким упором на sandbox и human oversight.
OpenAI API: отдельный computer tool для browser automation; старый Operator уже не отдельный основной продукт, а его логика ушла в ChatGPT agent.
Google: Computer Use в Gemini API Preview; Project Mariner остаётся скорее product/research-слоем про browser agents, а не единственным способом получить capability.
ПромптComputer use agent
Открой браузер, зайди в админку поставщика, скачай CSV-отчёт за вчера и положи файл в папку reports.
Ответ модели
План: 1) открыть браузер и войти в sandbox-профиль; 2) перейти в отчёты; 3) выставить дату 'yesterday'; 4) скачать CSV; 5) проверить, что файл появился в каталоге reports. Для логина и финального подтверждения отправки потребую takeover пользователя.
Один вызов backend-интеграции или MCP tool: `create_report(date='yesterday', format='csv')`.
Сначала ищите API, потом MCP, потом browser-use с DOM/Playwright, и только потом полноценный computer use по скриншотам. Чем ближе вы к GUI-пикселям, тем дороже и хрупче автоматизация.
Computer use означает, что модель получает право управлять интерфейсом через actions вроде:
screenshot;
click / double_click;
type;
scroll;
drag;
keypress.
Вместо прямого доступа к внутреннему состоянию приложения агент работает по наблюдаемому UI. Это делает подход универсальным, но одновременно медленным и хрупким.
У Anthropic computer use остаётся отдельным beta tool. В текущих docs он требует beta header и живёт как capability рядом с bash и text editor, а не как магический "автопилот".
Что важно:
tool остаётся beta;
для актуальных Claude 4.6 / 4.5 используется новый tool version computer_20251124;
feature не подходит под Zero Data Retention;
Anthropic прямо рекомендует запуск только в изолированной среде и с ограниченными правами.
То есть Anthropic подаёт computer use не как consumer feature, а как dangerous-but-useful developer primitive.
У OpenAI framing поменялась сильнее всего. В 2025 рынок видел это как Operator и CUA; в 2026 полезнее разделять два слоя:
API-layer: computer tool в OpenAI API;
product-layer: Operator functionality уже интегрирована в ChatGPT agent.
Это важное обновление по сравнению со старыми статьями, где всё сводилось к GPT-4o CUA. Для новых интеграций речь уже идёт не про старый research branding, а про отдельный browser automation tool внутри актуального agent stack OpenAI.
OpenAI также рекомендует handoff пользователя для чувствительных действий: смены пароля, обхода предупреждений браузера, paywall и других рискованных шагов.
Даже в 2026 computer use остаётся скорее last mile automation, чем универсальной заменой API.
Типичные проблемы:
неверная локализация маленьких элементов;
зависимость от масштаба, DPI и viewport;
всплывающие модалки и неожиданная навигация;
дублирующиеся кнопки вроде Save / Submit;
капча, 2FA и consent screens;
зацикливание на одном и том же действии.
Хороший демо-сценарий с браузером не гарантирует надёжность в реальном потоке задач. Production-grade computer use почти всегда требует sandbox, allow-list сайтов, retry policy, takeover points, trace logging и явные stop conditions.
Агент видит весь desktop или удалённую машину и работает только через UI. Это нужно, когда:
браузера недостаточно;
задача проходит через несколько приложений;
у desktop software нет нормального automation API.
Чем ниже уровень абстракции, тем выше цена ошибки. Поэтому browser-first исполнение обычно предпочтительнее, а full computer use стоит оставлять для реально GUI-only среды.
Ниже упрощённый каркас, который подходит к логике Anthropic / OpenAI / Google: модель возвращает действия, а ваш execution layer исполняет их в sandbox и делает новый screenshot.
class ComputerEnvironment:
def screenshot(self) -> bytes:
raise NotImplementedError
def execute(self, action: dict) -> None:
raise NotImplementedError
def run_computer_task(model_client, env: ComputerEnvironment, task: str, max_steps: int = 25):
state = {
"task": task,
"history": [],
}
for step in range(max_steps):
screenshot = env.screenshot()
response = model_client.next_actions(
task=task,
screenshot=screenshot,
history=state["history"],
)
if response.get("handoff_required"):
return {"status": "needs_user", "reason": response["handoff_required"]}
actions = response.get("actions", [])
if not actions:
return {"status": "done", "history": state["history"]}
for action in actions:
env.execute(action)
state["history"].append(action)
return {"status": "stopped", "reason": "max_steps_exceeded"}
В current OpenAI docs модель возвращает computer_call с массивом actions[], а приложение исполняет их последовательно. Для браузерного sandbox это может выглядеть так:
def handle_computer_actions(page, actions):
for action in actions:
match action.type:
case "click":
page.mouse.click(action.x, action.y)
case "double_click":
page.mouse.dblclick(action.x, action.y)
case "scroll":
page.mouse.wheel(
getattr(action, "scroll_x", 0),
getattr(action, "scroll_y", 0),
)
case "keypress":
for key in action.keys:
page.keyboard.press(" " if key == "SPACE" else key)
case "type":
page.keyboard.type(action.text)
case "wait":
page.wait_for_timeout(action.ms)
Практические требования к исполнителю:
держать фиксированный viewport;
логировать каждый action и screenshot;
ограничивать допустимые domains;
уметь прерывать run после repeated failures;
добавлять human takeover для sensitive side effects.
В Gemini docs Google прямо показывает browser environment через Playwright и подчёркивает, что продакшн-запуск должен идти в sandbox. Ещё один важный нюанс: модель может возвращать несколько действий за один turn, а координаты нормализуются и затем переводятся в пиксели на стороне исполнителя.
ПромптComputer use reviewer
У нас агент должен логиниться в B2B-портал, скачивать CSV и обновлять внутреннюю таблицу. Что проверить до запуска?
Ответ модели
Есть ли API или MCP вместо GUI.
Запускается ли браузер в отдельном sandbox profile.
Ограничены ли доступные домены и загрузки.
Есть ли handoff на логине, 2FA и финальной отправке.