Google 将计算机控制嵌入 Gemini 3.5 Flash
The Decoder··作者 Matthias Bastian
关键信息
Google 表示,这项新的 Computer Use 能力可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用。为安全起见,它采用对抗训练,并提供两项可选的企业级防护:一项会在敏感或不可逆操作前要求用户确认,另一项会在检测到间接提示注入时自动停止任务。
资讯摘要
Google 已将 Computer Use 直接嵌入 Gemini 3.5 Flash,使屏幕交互成为模型的内建能力,而不再是单独的产品。现在,这个模型可以自主看懂并操作电脑、浏览器和移动设备。报道称,这项能力此前只作为独立的 Gemini 2.5 Computer Use 模型提供。通过把 Computer Use 与现有的函数调用、Search 和 Maps 结合,开发者可以构建能够跨浏览器、桌面和移动端运行的代理。文章提到的典型场景包括软件测试和办公自动化。
由于这类代理式屏幕控制容易受到提示注入攻击,Google 也重点强调了安全性。为降低风险,Google 使用了对抗训练,并提供两项可选的企业级防护措施。其一是在涉及敏感或不可逆操作前要求用户确认,其二是在检测到间接提示注入时自动中止任务。Google 还在最佳实践文档中建议使用沙箱、人工监督和严格访问控制。该功能可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用,同时 Google 还提供了 Browserbase 演示和 GitHub 参考实现。

资讯正文
Google 将“Computer Use”直接集成进 Gemini 3.5 Flash,让模型能够看到并操作你的屏幕
Google 已将“Computer Use”直接集成到 Gemini 3.5 Flash 中。该模型现在可以自主查看、理解并与电脑、浏览器和移动设备交互。此前,这项能力仅作为单独的 Gemini 2.5 模型提供。结合现有的 function calls、Search 和 Maps 等工具,开发者现在可以构建能够跨浏览器、移动端和桌面环境工作的 agent,用于软件测试或办公自动化等任务。
为防范 prompt injection 攻击,Google 采用了对抗训练以及两项可选的企业级防护措施。其中一项要求用户对敏感或不可逆操作进行确认,另一项则会在检测到间接 prompt injection 时自动停止任务。Google 还建议使用沙箱、人工监督和严格的访问控制,并在其最佳实践文档中提供了更多细节。该功能可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用。Browserbase 演示以及 GitHub 参考实现也已提供。
来源与参考
收录于 2026-06-26