谷歌以代理式 Gemini 愿景开启 I/O 2026

Google AI Blog·5月20日 01:45 UTC·作者 Sundar Pichai

关键信息

Pichai 表示，谷歌每月处理的 token 已超过 3.2 千万亿，较一年前约 4,800 万亿增长了 7 倍，也远高于两年前的 9.7 万亿。他还说，AI Overviews 的月活用户已超过 25 亿，AI Mode 在一年内突破 10 亿月活，Gemini 应用的月活也从 4 亿增长到超过 9 亿。

资讯摘要

在 Google I/O 2026 上，谷歌 CEO Sundar Pichai 将主题演讲定位为“agentic Gemini 时代”的开端，并概述了谷歌的全栈 AI 战略。他重点介绍了 Gemini 驱动的产品、Search、Gemini 应用、开发者 API 以及 Google Cloud 使用量的显著增长。这表明谷歌希望把 Gemini 定位为不仅仅是一套模型，而是其产品、开发者平台和云业务的核心。

相关规模数据也说明 AI 已经深度嵌入谷歌的消费级和企业级体系，这对主流 AI 采用方向具有重要指示意义。 Pichai 表示，谷歌每月处理的 token 已超过 3.2 千万亿，较一年前约 4,800 万亿增长了 7 倍，也远高于两年前的 9.7 万亿。他还说，AI Overviews 的月活用户已超过 25 亿，AI Mode 在一年内突破 10 亿月活，Gemini 应用的月活也从 4 亿增长到超过 9 亿。

资讯正文

I/O 2026：欢迎来到 agentic Gemini 时代

编者注：以下内容是对 Google CEO Sundar Pichai 在 Google I/O 2026 上发言的编辑后整理稿，并根据舞台上公布的更多内容进行了调整。查看我们汇总中的所有公告。

自从上一次 I/O 以来，这一年非同寻常，期间我们持续高强度发布，技术不断进步，发展速度极快。我们现在正处于 AI 周期中的一个阶段，人们希望看到自己日常使用的产品真正体现出价值。我们一直非常专注于这一点，而你们会在今天 I/O 上我们发布的产品和功能中看到这一点。

自从十年前我们把公司转向 AI-first 以来，我们始终认为，AI 是推进使命、以规模化方式改善人们生活的最深远方式。因此，我们一直采取差异化的、全栈式 AI 创新路径，从我们的定制芯片和安全基础设施，到世界一流的研究与模型，再到触达数十亿用户的产品和平台。这种方法让我们能够以更快的速度迭代和创新，并正在点亮公司各个部分。

令人惊叹的是，人们正在以各种方式使用 AI：无论是学生用 Gemini 应用准备期末考试，音乐人和艺术家在创作流程中使用像 Lyria 和 Veo 这样的生成式 AI 模型，还是开发者写代码并将想法变为现实。

AI 在全栈上的势头

这些人们如何使用 AI 的故事，是衡量进展的最佳标准。要了解人们采用 AI 的规模，还有另一个很好的指标——tokens，也就是我们模型处理的基本数据单元，其中许多代表着一个正在被解决的问题。

两年前，我们在各个平台上每月处理 9.7 万亿个 tokens——这是一个巨大数字。去年 I/O 上，这一数字增长到大约 480 万亿个 tokens。到今天，这个数字又增长了 7 倍，达到每月超过 3200 万亿个。

这讲述了一个关于我们产品的重要故事，也说明了其他人在如何构建产品——尤其是开发者和企业：

- 目前，每月有超过 850 万名开发者使用我们的模型构建新的应用和体验。

- 我们的模型 API 现在每分钟处理大约 190 亿个 tokens。

- 在过去 12 个月里，超过 375 家 Google Cloud 客户中的每一家都处理了超过 1 万亿个 tokens，这代表着来自各行各业对 AI 的巨大需求。

我们的产品势头

今天，我们有 13 款产品的用户数都超过了 10 亿。其中 5 款产品的用户数超过了 30 亿。

我们的 Gemini 模型是更多人使用我们产品、以及更频繁使用我们产品的重要原因。

这一切都始于 Search，它正在把生成式 AI 的好处带给全世界比任何其他产品都更多的人。AI Overviews 现在每月活跃用户已超过 25 亿。而 AI Mode 则是一项令人惊艳的功能，是 Search 有史以来最大的一次升级。人们非常喜欢它，而仅仅一年时间，它的每月活跃用户数就已经超过 10 亿。

当人们在 Search 中使用我们的 AI 驱动功能时，他们会更频繁地使用 Search。Search 已经不再只是单个查询，而更像是一场持续进行的对话，它能为你提供更深入的洞见，并把你连接到浩瀚的网络世界。

我们快速创新的另一个领域是 Gemini app。去年在 I/O 上，Gemini app 的月活跃用户为 4 亿。今天，我们已经超过 9 亿，一年内增长了一倍多。同期，日请求量增长了超过 7 倍。

我们还在加入许多独特功能，比如 Personal Intelligence，它们让回复更个性化、更有帮助。到目前为止，已经有超过 500 亿张图片通过我们的 Nano Banana 图像生成模型生成。它在过去这一年里成为现象级产品，展示了世界上蕴藏着多么巨大的创造力。

产品中的自然对话式 AI

还有很多潜在的生产力有待释放。在过去一年里，我们一直在把能与 Gemini 进行更自然对话的能力直接带入我们的产品中。最近，Maps 迎来了十年来最大的一次升级，其中包括一个名为 Ask Maps 的新功能。人们正在用 Ask Maps 提出更复杂、也更长的问题。

现在，我们正把更自然的对话式 AI 带到更多产品中。

Ask YouTube

人们每天都会来到 YouTube，提出许多问题。那里有很多很棒的视频，但有时很难知道从哪里开始。

Ask YouTube 完全重新构想了这一体验，让信息更易于消化，也更便于浏览。你会看到最符合你兴趣的视频，而最重要的是，它会直接跳到视频中与你最相关的部分。

我们现在开始测试 Ask YouTube，它将于今年夏天在美国广泛推出。

由语音驱动的 Docs Live

很多时候，我都希望能以说话的速度把事情做完。得益于我们音频模型上的技术跃迁，今天这已经更有可能实现。

一个名为 Docs Live 的新功能把这一点提升到了另一个层次。过去，要用 Gemini 创建文档，你必须输入一段精确的提示词。借助 Docs Live，你只需用语言把脑子里想到的内容“倒出来”，然后让 Gemini 处理剩下的一切。这里有一个实时演示：

未来，你将能够直接用语音创建新文档并编辑它们。Docs Live 将于今年夏天向订阅用户推出，届时强大的语音能力也会进入 Gmail 和 Keep。

支撑大规模创新的基础设施

看到我们的产品线中持续推出创新，令人难以置信。要在为全球企业和开发者提供服务的同时，还支撑这一切面向用户的规模，需要对基础设施进行大规模投资。我们一直在为当下和未来投入。2022 年，我们每年的资本支出为 310 亿美元。今年，我们预计这个数字将达到其约 6 倍，也就是大约 1800 亿至 1900 亿美元。这项投资的一个关键部分是我们的定制芯片。

十年前，我们在 I/O 舞台上发布了首款商用张量处理单元，也就是 TPU。从那以后，我们改变了整个行业构建 AI 的方式。我们最近在 Cloud Next 上宣布了第 8 代 TPU。第一次，我们采用了双芯片方案，针对训练和推理分别使用专门架构：TPU 8t 和 8i。

TPU 8t 针对大规模预训练进行了优化，其原始计算能力几乎是上一代的三倍。我们在训练基础设施上采取了根本不同的方法。借助 JAX 和 Pathways，我们的训练不再受限于单个大型数据中心的边界。相反，我们现在可以无缝地在多个站点之间分布训练，在全球范围内扩展到超过 100 万块 TPU。这使我们有能力打造世界上最大的训练集群。对模型构建者来说，这意味着可以在数周而不是数月内训练出更大、更强大的模型。

TPU 8i 则是为推理设计的。我们在每一个环节都大幅提升了速度。因为如果我们从 27 年的 Search 工作中学到了什么，那就是延迟至关重要。

除了速度之外，我们也在思考如何以可持续的方式扩展。两款芯片都更节能，单位功耗性能最高可提升两倍。

Gemini Omni

TPU 的这些进展，正是我们能够在模型、编码和智能体方面推进算力升级的原因。随着世界模型的发展，AI 正在从预测文本转向模拟现实。我们一直在努力拓展这些模型能力的边界。

Gemini Omni 是我们的新模型，能够根据任意输入生成任意输出模态的样本。我们首先从视频输出开始，随后还将支持图像和文本。这个新模型将 Gemini 的智能与我们的生成媒体模型结合起来——这是对世界理解能力的一次巨大飞跃。我们正在推出 Omni 家族中的首个模型：Gemini Omni Flash。

Gemini Omni Flash 从今天起可用。你可以在 Gemini 应用、Google Flow 和 YouTube Shorts 中体验它。我们也将在未来几周内通过 API 向开发者和企业客户开放。

新的 SynthID 更新与合作伙伴

随着生成式 AI 变得越来越强，透明度的需求也随之上升。研究显示，人们只能在大约四分之一的情况下正确识别高质量深度伪造视频。三年前，我们推出了 SynthID，这是一种肉眼不可见的水印。自发布以来，SynthID 已为超过 1000 亿张图像和视频，以及相当于 60,000 年时长的音频资产添加了水印。

数百万用户正在 Gemini 应用中使用我们的 SynthID 检测器来验证 AI 生成内容。现在我们更进一步，在各产品中加入 Content Credentials 验证。这将向你显示内容来源是 AI 还是相机，以及它是否被生成式 AI 工具编辑过。我们希望更多人能够轻松使用这些工具，因此我们正在把 Content Credentials 和 SynthID 验证扩展到 Search 和 Chrome。

当然，这只有在更多合作伙伴决定为自己的 AI 生成内容添加水印时，才能实现规模化。Nvidia 去年已经加入了 SynthID。今天，我们很高兴地宣布，OpenAI、Kakao 和 Eleven Labs 也正在采用 SynthID。这种跨行业协作非常令人欣喜。我们期待与更多合作伙伴扩展合作，并为 AI 时代树立透明度标准。

Gemini 3.5 Flash

Gemini 3 几个月前发布，带来了完整的模型家族。这是我们迄今为止被采用最多的系列。我们很高兴看到开发者把 Flash 当作日常主力来使用，并利用 Pro 强大的深度推理和多模态能力构建出令人惊叹的体验。我们一直在努力改进这些模型，尤其聚焦于代理式编码、长周期任务以及真实世界工作流。

今天，我们推出 Gemini 3.5 Flash，这是我们首批将前沿智能与行动能力结合起来的模型之一。我要重点提两点：

- 与 3.1 Pro 相比，3.5 Flash 在几乎所有基准测试中都更好。它在编码方面取得了巨大进步——而 GDPVal 的惊人跃升尤其值得关注。这个指标涵盖了许多具有现实经济价值的任务。

- Gemini 3.5 Flash 是一个非常强大的模型，处于前沿水平，并且可与最优秀的模型相媲美，但它依然非常快。这就是为什么从智能与输出速度的关系来看，它在右上角独占一席之地。按每秒输出 token 数衡量，它比其他前沿模型快四倍。

这个新模型已经在 Google 内部成为改变游戏规则的存在。我们一直在将 3.5 Flash 用于经过重新构想的、以 agent 为先的开发平台 Antigravity，它极大加速了我们的构建方式。今年 3 月，我们在内部的 AI 开发工具中每天处理 5,000 亿个 token，并且每隔几周就翻一番。现在，我们每天处理的 token 已超过 3 万亿。这样的规模形成了强大的反馈回路，帮助我们改进 3.5。

Flash 的惊人之处在于，它以不到可比前沿模型一半的价格，提供了前沿级能力。我们听说许多公司已经在五月就把年度 token 预算花光了。如果公司把 Flash 与其他前沿模型混合使用，就能节省大量资金。为了说明这一点，顶级公司每天大约处理 1 万亿个 token。如果他们把 80% 的工作负载从其他前沿模型转移到 3.5 Flash，每年可节省超过 10 亿美元。这是真正的节省，可以重新投入到公司发展中。

Gemini 3.5 Flash 今天已在我们的产品和 API 中向所有人开放。我们也对 Gemini 3.5 Pro 感到兴奋。我们正在内部使用它，它表现出很大的改进，并将于下个月推出。

Antigravity 2.0

我们也将把 3.5 Flash 带给 Antigravity 中的开发者。

Antigravity 正在超越编码环境，转变为一个用于开发和管理自主 AI 代理群组的平台。这包括 Antigravity 2.0——一款全新的独立桌面应用，作为代理交互的中心主页，任何人都可以在这里协调代理处理各种任务。我们还开发了一个进一步优化的 Flash 版本：速度不仅比其他前沿模型快 4 倍，而是快 12 倍。

用户从今天起就可以在 Antigravity 中初步体验这一功能。点击这里了解更多关于 Antigravity 2.0 的信息。

Gemini Spark 是你的 24/7 代理

Gemini 3.5 和 Antigravity 正在开启一个由代理和 agentic 能力组成的新世界。过去一段时间里，我们一直在把代理带给开发者和企业。现在，我们高度专注于以安全、可靠的方式把代理的能力带给消费者，让它适用于每个人。你今天会在我们许多产品中看到 agentic 体验。

我尤其为 Gemini Spark 感到兴奋，它是 Gemini 应用中的个人 AI 代理，帮助你管理数字生活，在你的指导下代你采取行动。

- 它运行在 Google Cloud 上的专用虚拟机中，而且是 24/7 运行，所以你不需要一直开着笔记本电脑。

- 它由 Gemini 3.5 和 Google Antigravity harness 提供支持，这使它能够在后台轻松执行长周期任务。

- Spark 将与工具无缝集成，首先是我们自家的工具，并将在接下来的几周内通过 MCP 集成第三方工具。

- 你可以用最方便的方式与 Spark 协作：在 Gemini 应用中，或者很快也可以通过电子邮件和聊天来使用。

- 在 Android 上，今年晚些时候你将能够通过一个名为 Android Halo 的新 UI 空间，查看像 Spark 这样的代理的实时更新和任务进度。今年夏天晚些时候，Spark 将直接在 Chrome 中运行，充当你在整个网络上的 agentic 浏览器。

我们本周开始向受信任的测试者推出 Gemini Spark，下周 Beta 版将面向美国的 Google AI Ultra 订阅用户开放。

agentic 时代的搜索

Gemini Spark 是由 3.5 模型和 Antigravity 共同实现的首个体验。这一组合为我们提供了加速使命、并将产品转变为极其有用的新方式。

当我们进入这个 agentic 时代后，Search 将比以往任何时候都更有帮助、也更强大。今天，我们在 Search 中推出信息代理。这些是个性化 AI 代理，你可以将它们设置为在后台 24/7 运行，在恰当的时刻找到你需要的内容，并帮助你采取行动。信息代理将从今年夏天开始推出，首批面向 Google AI Pro 和 Ultra 订阅用户。

我们构建真正 agentic Search 的另一种方式，是将 agentic 编码能力注入其中。借助 Gemini 3.5 Flash 和 Google Antigravity 的能力，Search 将仅为你的个人问题构建定制化体验，例如动态布局和交互式视觉效果。这些生成式 UI 能力今年夏天将向 Search 中的所有用户免费开放。

对于那些需要反复回到其中、耗时更长的任务，Search 还能更进一步——构建持久的、自定义的仪表盘或跟踪器，让你可以返回继续推进。你可以把它们理解为为你自己的特定任务量身打造的小型应用。未来几个月，你将能够在 Search 中通过 Antigravity 构建自定义体验，首先面向美国的 Google AI Pro 和 Ultra 订阅用户推出。

以下是我们在 I/O 上分享的其他内容：

- Daily Brief 是即将登陆 Gemini 应用的另一款开箱即用型 agent。它会为你提供个性化摘要，并综合来自收件箱、日历和任务的信息，找出你最需要关注的事项。它不只是总结数据：它还会优先排序、组织并建议下一步操作，让你更容易采取行动。所有内容都浓缩在这份极简、适合快速浏览的晨间简报中。

- Google Flow 今天开始向所有用户推出一款新的 agent，它可以在你的输入和你的掌控下，规划并推理复杂任务。它基于 Gemini 模型构建，结合了专业能力和对你项目的深度理解，帮助你进行早期头脑风暴、创作和编辑。你还可以在 Flow 中直接 vibe code 任何创意工具——比如用于设计视频特效、手绘动画或文字叠加的工具。

- Google Pics 是我们新的 AI 图像创作与编辑工具，基于我们最新的 Nano Banana 模型构建，可帮助你借助所需的创意控制创建几乎任何内容。无论你是从空白画布开始设计，还是编辑现有照片，Pics 都会把每个元素当作独立对象，而不是一张平面、静态的图像。这让你可以创建、替换或完善特定细节，从而将你的准确构想变为现实。Google Pics 目前已向可信测试者开放，并将在今年夏天晚些时候向 Workspace 中的 Google AI Pro 和 Ultra 订阅用户推出。

- 我们还分享了更多关于智能眼镜的信息，这是我们去年首次预览的产品，包括音频眼镜——可在你耳边提供语音帮助，以及显示眼镜——可在你需要的时候把你需要的信息显示给你。两者都能让你保持双手空闲、抬头向前，只需开口询问，就能获得 Gemini 的帮助。音频眼镜将率先上市，预计在今年秋季晚些时候推出。

- Gemini for Science 汇集了多种 AI 工具，帮助加速科学研究。它建立在 Gemini 的深度推理和研究能力，以及 Deep Think 和 Deep Research 之上，包含了 Labs 上的新实验，以及 Science Skills，可将 Google Antigravity 这类 agentic 平台连接到 30 多个主要生命科学数据库和工具。用户可以表达试用 Gemini for Science 实验的意愿，方式是通过 Google Labs；而 Science Skills 今天已可在 GitHub 上使用，也可直接在 Antigravity 中使用。

当我们纵观整个创新栈——从 TPU 8i 背后的基础设施，到 Gemini 3.5 和 Antigravity 的前沿能力——很明显，我们已经坚定地进入了 agentic Gemini 时代。我很期待看到它将如何开启新的方式来加速我们的使命，并把我们的产品转变得对世界各地的每个人都极其有帮助。

在这里查看我们宣布的全部内容。

来源与参考

收录于 2026-05-20