谷歌推出Deep Research和Deep Research Max代理
The Decoder··作者 Matthias Bastian
关键信息
标准版Deep Research侧重低延迟以实现实时交互,而Deep Research Max则利用额外计算时间进行更深入分析;两者均支持Model Context Protocol(MCP)以接入私有数据,并能生成原生图表。
资讯摘要
谷歌推出了两个新的自主研究代理——Deep Research和Deep Research Max,均基于Gemini 3.1 Pro模型。前者优化了速度和低延迟,适合聊天界面;后者则通过扩展推理和搜索迭代实现深度分析,适用于夜间报告等后台任务。两者均支持Model Context Protocol(MCP),使开发者能够连接到内部数据库、金融数据源等私有资源。
它们还支持多模态输入(PDF、图片、音频、视频)、协作式规划和中间步骤的实时流式传输。谷歌声称相比旧版本性能显著提升,特别是在检索和细节理解方面,但与OpenAI和Anthropic模型的对比因测试方法差异而不完全可比。

资讯正文
Google推出了Deep Research和Deep Research Max两个智能代理,以自动化复杂研究任务
关键要点
- Google推出了两个基于Gemini 3.1 Pro模型的自主研究代理:Deep Research和Deep Research Max。
- 标准版Deep Research侧重于速度和低延迟,适用于实时用户交互;而Max版本则通过利用额外计算时间,在异步后台任务中追求最大程度的全面性。
- 两个代理均支持Model Context Protocol(MCP),可连接专有数据源,并可通过付费的Gemini API提供给开发者。
Google推出了两个基于其Gemini 3.1 Pro模型的新自主研究代理:Deep Research和Deep Research Max。
这两个代理目前已在Gemini API的付费层级中开放公共预览,目标用户是希望自动化高强度研究工作的开发者。单次API调用即可启动完整的研究流程,且首次实现了从公开网络和专有数据流中同时获取信息,从而生成带有完整来源依据的分析报告。
两种模式适应不同工作负载
标准版Deep Research取代了去年12月发布的预览版本,承诺在更低延迟和更低成本下实现更高质量的结果。它适用于对响应速度要求最高的场景,例如聊天界面中用户期望即时回复的情况。
Deep Research Max则反其道而行之,优先考虑深度而非速度。该代理使用扩展的推理时间来反复思考、搜索并完善最终报告。Google指出,异步后台工作流是最适合的应用场景,比如夜间定时任务可以在第二天早上为分析师团队交付一份完整的尽职调查报告。
根据Google自身的基准测试,Deep Research Max在检索和推理任务上表现显著提升。该代理比前一版本引用更多来源,并能捕捉到旧模型容易忽略的细节。
与OpenAI的GPT-5.4和Anthropic的Opus 4.6进行比较时,并非完全可比。GPT-5.4擅长自主网络搜索,但并未针对深度研究优化。对于这类任务,OpenAI提供了自己的DR代理,该代理在二月更新后已切换至GPT-5.2而非GPT-5.4。实际上,OpenAI最强的搜索模型是GPT-5.4 Pro,而Google似乎未将其纳入对比范围。据OpenAI称,GPT-5.4 Pro在代理搜索基准BrowseComp上的得分高达89.3%,而GPT-5.4得分为82.7%。
Anthropic也表示,Opus 4.6在BrowseComp上的得分高于Google公布的数值,具体为84%。Anthropic指出,该模型是在关闭推理能力的情况下达到这一分数的,因为此时性能反而优于Google在其API基准测试中使用的高推理强度设置。
这些差距可能源于测试方法的不同——模型是否通过原始API评估,还是嵌套在各实验室自研工具中。Google的数据未必错误,但值得谨慎看待。无论如何,当前展示方式缺乏透明度。
MCP支持使代理能够接入专有数据
谷歌推出了Deep Research和Deep Research Max代理,以自动化复杂研究。
一个重大更新是支持模型上下文协议(MCP)。开发者可以将Deep Research接入自己的数据源和专业信息流,例如金融或市场数据提供商。谷歌表示,通过接受任何工具定义,该代理从单纯的网络搜索器转变为能够查询专业数据库的完全自主代理。
在Gemini API中,这是首次让代理能够在报告中直接生成原生图表和信息图,渲染格式为HTML或“Nano Banana”格式,使复杂数据的可视化呈现更加便捷。
其他新增功能包括协作式规划,允许用户在代理执行前审查并调整其搜索计划;支持来自PDF、CSV、图像、音频和视频的多模态输入;以及中间步骤的实时流式传输。开发者还可以完全关闭网络访问权限,仅限代理使用自有数据。
谷歌称,这些代理运行在与其消费者产品(包括Gemini应用、NotebookLM、Google搜索和Google财经)研究功能相同的基础设施上。开发者可通过Interactions API开始构建定制化的搜索工作流程,而这两个代理将很快通过Google Cloud面向初创企业和企业客户推出。
来源与参考
收录于 2026-04-22