Google 将计算机控制嵌入 Gemini 3.5 Flash

The Decoder·6月25日 17:04 UTC·作者 Matthias Bastian

关键信息

Google 表示，这项新的 Computer Use 能力可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用。为安全起见，它采用对抗训练，并提供两项可选的企业级防护：一项会在敏感或不可逆操作前要求用户确认，另一项会在检测到间接提示注入时自动停止任务。

资讯摘要

Google 已将 Computer Use 直接嵌入 Gemini 3.5 Flash，使屏幕交互成为模型的内建能力，而不再是单独的产品。现在，这个模型可以自主看懂并操作电脑、浏览器和移动设备。报道称，这项能力此前只作为独立的 Gemini 2.5 Computer Use 模型提供。通过把 Computer Use 与现有的函数调用、Search 和 Maps 结合，开发者可以构建能够跨浏览器、桌面和移动端运行的代理。文章提到的典型场景包括软件测试和办公自动化。

由于这类代理式屏幕控制容易受到提示注入攻击，Google 也重点强调了安全性。为降低风险，Google 使用了对抗训练，并提供两项可选的企业级防护措施。其一是在涉及敏感或不可逆操作前要求用户确认，其二是在检测到间接提示注入时自动中止任务。Google 还在最佳实践文档中建议使用沙箱、人工监督和严格访问控制。该功能可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用，同时 Google 还提供了 Browserbase 演示和 GitHub 参考实现。

资讯正文

Google 将“Computer Use”直接集成进 Gemini 3.5 Flash，让模型能够看到并操作你的屏幕

Google 已将“Computer Use”直接集成到 Gemini 3.5 Flash 中。该模型现在可以自主查看、理解并与电脑、浏览器和移动设备交互。此前，这项能力仅作为单独的 Gemini 2.5 模型提供。结合现有的 function calls、Search 和 Maps 等工具，开发者现在可以构建能够跨浏览器、移动端和桌面环境工作的 agent，用于软件测试或办公自动化等任务。

为防范 prompt injection 攻击，Google 采用了对抗训练以及两项可选的企业级防护措施。其中一项要求用户对敏感或不可逆操作进行确认，另一项则会在检测到间接 prompt injection 时自动停止任务。Google 还建议使用沙箱、人工监督和严格的访问控制，并在其最佳实践文档中提供了更多细节。该功能可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用。Browserbase 演示以及 GitHub 参考实现也已提供。

来源与参考

收录于 2026-06-26