Google 将计算机控制嵌入 Gemini 3.5 Flash

The Decoder··作者 Matthias Bastian

关键信息

Google 表示,这项新的 Computer Use 能力可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用。为安全起见,它采用对抗训练,并提供两项可选的企业级防护:一项会在敏感或不可逆操作前要求用户确认,另一项会在检测到间接提示注入时自动停止任务。

资讯摘要

Google 已将 Computer Use 直接嵌入 Gemini 3.5 Flash,使屏幕交互成为模型的内建能力,而不再是单独的产品。现在,这个模型可以自主看懂并操作电脑、浏览器和移动设备。报道称,这项能力此前只作为独立的 Gemini 2.5 Computer Use 模型提供。通过把 Computer Use 与现有的函数调用、Search 和 Maps 结合,开发者可以构建能够跨浏览器、桌面和移动端运行的代理。文章提到的典型场景包括软件测试和办公自动化。

由于这类代理式屏幕控制容易受到提示注入攻击,Google 也重点强调了安全性。为降低风险,Google 使用了对抗训练,并提供两项可选的企业级防护措施。其一是在涉及敏感或不可逆操作前要求用户确认,其二是在检测到间接提示注入时自动中止任务。Google 还在最佳实践文档中建议使用沙箱、人工监督和严格访问控制。该功能可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用,同时 Google 还提供了 Browserbase 演示和 GitHub 参考实现。

Google 将计算机控制嵌入 Gemini 3.5 Flash

资讯正文

Google 将“Computer Use”直接集成进 Gemini 3.5 Flash,让模型能够看到并操作你的屏幕

Google 已将“Computer Use”直接集成到 Gemini 3.5 Flash 中。该模型现在可以自主查看、理解并与电脑、浏览器和移动设备交互。此前,这项能力仅作为单独的 Gemini 2.5 模型提供。结合现有的 function calls、Search 和 Maps 等工具,开发者现在可以构建能够跨浏览器、移动端和桌面环境工作的 agent,用于软件测试或办公自动化等任务。

为防范 prompt injection 攻击,Google 采用了对抗训练以及两项可选的企业级防护措施。其中一项要求用户对敏感或不可逆操作进行确认,另一项则会在检测到间接 prompt injection 时自动停止任务。Google 还建议使用沙箱、人工监督和严格的访问控制,并在其最佳实践文档中提供了更多细节。该功能可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用。Browserbase 演示以及 GitHub 参考实现也已提供。

来源与参考

  1. 原始链接
  2. Google bakes computer control directly into Gemini 3.5 Flash, letting the model see and operate your screen

收录于 2026-06-26