OpenAI 把 ChatGPT 重新定位为代理型超级应用
ChatGPT 正从聊天界面转向任务执行平台,编程、图像生成和伙伴应用将成为核心入口,OpenAI 也在为企业与 IPO 叙事重新包装产品。[2345][2352]
AI 日报
今天的主线很清晰:AI 正从“能聊天”转向“能做事”。OpenAI 试图把 ChatGPT 重塑为代理型超级应用,而围绕安全、成本和算力的竞争也在同步升级。与此同时,企业市场开始更明显地按价格与效率筛选模型,行业的商业逻辑正在被重新定价。
Overview
从 23 条资讯中筛选出 9 条
今天的主线很清晰:AI 正从“能聊天”转向“能做事”。OpenAI 试图把 ChatGPT 重塑为代理型超级应用,而围绕安全、成本和算力的竞争也在同步升级。与此同时,企业市场开始更明显地按价格与效率筛选模型,行业的商业逻辑正在被重新定价。
ChatGPT 正从聊天界面转向任务执行平台,编程、图像生成和伙伴应用将成为核心入口,OpenAI 也在为企业与 IPO 叙事重新包装产品。[2345][2352]
OpenAI 新增锁定模式,关闭网页、Deep Research 和 Agent Mode,以降低提示注入与数据外泄风险,但公司也承认这并非彻底防护。[2348]
GitHub Copilot 的调价被视为 token 计费和用量限制收紧的前兆,AI 公司越来越难继续以低价和强补贴维持增长。[2351]
DeepSeek 成为 Ramp 增长最快的软件供应商,说明部分美国公司已经在直接为低成本模型付费,性价比正在改变采购版图。[2344]
Perplexity 让模型自己写搜索流水线,而 Anthropic 挖走 OpenAI 芯片工程师,说明 AI 竞争正在同时向软件代理层和硬件层推进。[2347][2349]
AI 枪械探测系统未能识别袭击武器并遭到诉讼,显示当 AI 被用于安全与公共场景时,失效成本极高。[2346]
OpenAI 正在把 ChatGPT 重新定位为以代理、编程工具和合作伙伴集成为核心的“超级应用”,这代表 AI 产品逻辑从问答走向任务执行。[2345][2352] 这一变化不仅影响用户体验,也直接指向企业工作流、付费转化和未来 IPO 叙事。
Ramp 数据显示,DeepSeek 成为增长最快的软件供应商,说明部分美国公司正在直接为更便宜的模型买单。[2344] 这与 AI 市场的整体走向一致:在性能差距缩小、成本压力上升的背景下,采购决策越来越向“性价比”倾斜。
AI 安全并非抽象问题。纳什维尔校园枪击案幸存者起诉 AI 枪械探测公司 Omnilert,迫使自动化安全产品的真实失效进入法律审查。[2346] 这起案件提醒行业:当 AI 进入高风险场景,可靠性、责任归属和营销边界都会被放大检验。
今天的新闻共同指向一个方向:AI 正在从“工具”变成“平台”,从“演示”走向“运营”,但同时也暴露出更高的安全、成本和基础设施门槛。接下来真正决定胜负的,不只是模型参数,而是代理能力、产品入口、算力控制和商业化效率。[2345][2347][2348][2349][2351][2344]
Stories
The Decoder

据报道,OpenAI 正在把 ChatGPT 从一个问答式聊天机器人重塑为以自主代理、编程工具和合作伙伴集成为核心的“超级应用”。这一转向由一位 OpenAI 高管向《金融时报》披露,OpenAI 也已确认自己正在打造一款超级应用。
这意味着全球最具影响力的 AI 平台之一正在进行重大的产品战略转向,从对话式交互走向任务执行。如果成功,它可能会重塑用户在编程、旅行、购物和其他日常工作流中使用 AI 的方式。
据报道,OpenAI 正在准备自 2022 年发布以来对 ChatGPT 进行最大规模的改版。根据《The Decoder》引用的报道,并结合十多名现任和前任员工的信息,OpenAI 正在把重点从简单的聊天机器人互动转向能够自主完成任务的 AI 代理。OpenAI 一位高管对《金融时报》表示,“聊天已死”,这反映出公司认为核心界面需要超越来回对话。首席产品官 Thibault Sottiaux 表示,产品将“超越实际表层”,朝着一个能够在工作和个人生活中提供帮助的个人代理方向演进。OpenAI 还已经表示自己正在开发一款“超级应用”,而这篇报道将 ChatGPT 视为该战略的中心。
短期内,公司计划重新设计 ChatGPT 的网页端和移动端界面,突出编程、图像生成以及合作伙伴应用。报道中明确提到的合作伙伴包括 Canva 和 Booking。长期来看,随着模型越来越能自动判断用户需要什么,这些界面引导将逐步减少。报道还指出,ChatGPT、Codex 和其他产品团队已经合并到 Thibault Sottiaux 之下,这表明公司正在围绕这一新方向进行组织层面的统一。
OpenAI 计划在未来几周重新设计 ChatGPT 的网页和移动端界面,引导用户使用编程、图像生成以及 Canva、Booking 等合作伙伴应用。随着模型越来越能自动判断用户需求,这些引导未来会逐渐弱化;此外,ChatGPT、Codex 和其他产品团队已经整合到首席产品官 Thibault Sottiaux 之下。
Ars Technica AI

一名在2025年1月纳什维尔校园枪击案中受伤的青少年幸存者,近日起诉了AI枪械探测供应商Omnilert,指控其系统未能识别出袭击中使用的手枪。该诉讼已于上个月在戴维森县法院提起,System Integrations也被列为被告。
此案将一款AI安全产品的真实失效置于法律审查之下,可能影响学校、供应商和保险方对自动化探测系统责任归属的判断。它也引发了更广泛的质疑:计算机视觉安防工具是否真能在最需要的时候可靠地预防暴力事件。
一名在2025年1月纳什维尔一所高中校园枪击案中受伤的青少年幸存者,已起诉Omnilert,指控这家AI枪械探测系统制造商未能识别出袭击中使用的手枪。该诉讼于上个月在戴维森县法院提交,同时把转售该系统的System Integrations列为被告。那起枪击案造成两人死亡,其中包括枪手本人。诉状称,Omnilert要么已经知道,要么本应知道其产品存在“重大运行限制”,在真实紧急情况下可能导致探测失败。原告特别指出,这些限制包括摄像头安装位置、武器与摄像头传感器的距离、摄像头角度、光照条件以及武器可见度。诉讼还认为,Omnilert在营销材料中夸大了系统能力。
诉状引用了互联网档案馆保存、且在枪击前几天仍可见的公司网页内容,称该产品可以通过更早识别威胁来“减轻或阻止马乔里·斯通曼·道格拉斯高中悲剧”,但并未提到误报、假阳性或任何检测限制。梅斯特罗波利坦纳什维尔公立学校系统在2023年批准了一份超过100万美元的合同,为全区摄像头基础设施叠加这层探测系统。枪击发生后,学区发言人Sean Braisted表示,枪手相对于摄像头的位置导致图像“不够近,无法做出准确识别,也无法触发警报”。Omnilert联合创始人Ara Bagdasarian和System Integrations都未回应媒体置评请求。原告律师表示,据他所知,这可能是针对Omnilert或类似公司的首起此类诉讼。批评者则认为,这笔用于部署该系统的资金也许本可以投向其他校园安全措施,甚至用于学生心理支持等资源。
诉讼称,Omnilert本应知道其系统存在运行限制,包括摄像头位置、武器与镜头距离、角度、光线和可见度等因素。MNPS在2023年批准了一份超过100万美元的合同,为现有摄像头网络增加该探测层;而学区官员随后表示,枪手与摄像头距离不够近,画面不足以触发警报。
The Decoder

Perplexity 推出了“Search as Code”(SaC)架构,让 AI 模型生成自定义的 Python 搜索工作流,而不是调用固定的搜索 API。该系统正在 Perplexity Computer 和 Agent API 中逐步上线。
这把搜索从固定的黑盒 API 调用变成了可编程工具,让智能体可以按任务动态调整流程,从而有望提升研究精度并减少无效的上下文 token 消耗。若能在更多场景中成立,它可能影响未来 AI 智能体如何结合推理、代码执行和检索。
Perplexity 表示,传统搜索 API 主要是为人类设计的,因为它们要求模型遵循一个很固定的循环:发出查询、接收结果、阅读结果、再发起下一次查询。公司在新的技术报告中认为,当智能体需要在很短时间内执行大量搜索,并且需要更精细地控制过滤和排序时,这种方式会成为瓶颈。为了解决这个问题,Perplexity 提出了“Search as Code”,让模型不再只是调用固定 API,而是直接生成自定义的 Python 脚本。这个脚本会在安全沙箱中运行,并通过 Agentic Search SDK 调用搜索能力。SDK 将搜索拆分成模块化功能,包括检索、过滤、去重和重排序。
Perplexity 说,标准搜索 API 仍然适合快速问答,但 SaC 更适合复杂研究任务,因为模型可以自己决定搜索策略。为了展示效果,公司用一个网络安全任务做了测试,目标是找出 2023 到 2025 年间发布的 200 个严重 CVE。智能体需要为每个漏洞找到厂商的官方公告、受影响的软件,以及修复漏洞的准确版本,同时不能把新闻稿或博客文章算进去。Perplexity 称,智能体通过三阶段脚本完成了任务:先并行搜索不同厂商的安全公告格式,再针对缺失信息做定向补查,最后用 schema 验证 CVE、产品和修复版本是否对应一致。公司还表示,这种方法比标准流程少用了 85% 的 token,并在五个基准中的四个上超过了竞争系统。
SaC 让模型编写的 Python 代码在安全沙箱中运行,并通过 Agentic Search SDK 提供检索、过滤、去重和重排序等函数。Perplexity 表示,这种方式可以并行发起查询、保持上下文窗口更干净,并比标准搜索流水线更适合长时间研究任务。
The Decoder

OpenAI为ChatGPT推出了新的锁定模式,可关闭网页访问、Deep Research和Agent Mode,以降低提示注入和数据外泄风险。用户可以在安全设置中启用它,并在需要完整功能时针对单个对话临时关闭。
这为处理敏感信息的个人和组织提供了一种实际手段,可以限制ChatGPT与互联网和外部服务的连接。它尤其重要,因为提示注入仍然是一个持续存在的AI安全问题,可能被用来操纵模型行为并尝试窃取数据。
OpenAI为ChatGPT推出了新的锁定模式,目标是面向处理特别敏感数据的个人和组织。该模式会关闭所有连接到互联网或外部服务的功能,包括网页访问、Deep Research和Agent Mode。OpenAI表示,这样做是为了降低隐藏在文本或文件中的提示注入,操纵模型并导致数据外泄的风险。实际上,实时网页搜索会被限制为缓存内容,因此结果可能过时,甚至可能不可用,同时ChatGPT也不能再下载文件或在普通回复中显示网页图片。Canvas生成的代码网络访问也会被阻止。
OpenAI把提示注入描述为一个前沿的安全问题,并表示该功能建立在沙箱、基于URL的外泄保护、监控和访问控制等现有防护之上。不过,公司也承认提示注入并没有被彻底解决,锁定模式并不能保证完全防护。个人账户和自主管理的Business账户可以在“Settings > Security”中启用该模式,而受管工作区则可以通过基于角色的权限进行控制。用户还可以针对单个对话临时关闭该模式,但锁定模式和Developer Mode不能同时使用。
锁定模式会将实时网页搜索限制为缓存内容,阻止文件下载,禁止在普通回复中显示网页图片,并阻止Canvas生成的代码访问网络。对于个人账户,它仍允许部分已同步数据的连接器,但会阻止实时访问、写入操作以及金融和购物功能;在受管工作区中,管理员可以通过RBAC进行配置。
The Decoder

Anthropic已经聘用了Clive Chan,文章称他是OpenAI第二位芯片工程师,而两家公司都在向潜在IPO推进。Chan表示,他曾参与从零开始搭建OpenAI的定制芯片项目,并参与了OpenAI与Broadcom的战略合作,之后离开了OpenAI。
这次人事变动显示,随着模型公司试图降低成本并提升性能,AI硬件人才正变得越来越关键。如果Anthropic进一步建立自研芯片能力,可能会增强利润率,并减少对外部硬件供应商的依赖。
Anthropic聘用了前OpenAI芯片工程师Clive Chan,这一举动凸显了两家AI公司之间日益激烈的竞争。文章称,Chan曾是OpenAI定制芯片项目中的第二位硬件员工,并参与了从零开始构建定制芯片的工作。他还参与了OpenAI与Broadcom的战略合作,不过据报道,该合作因生产成本和OpenAI的信用状况等问题遇到过阻碍。Chan在一篇公开帖子中称赞了团队的硬件人才密度,并表示他认为这些芯片将成为AGI最重要的引擎之一。尽管如此,他现在已经加入Anthropic,而Anthropic和OpenAI一样,也被报道正接近IPO。
文章并不明确Anthropic究竟是想让他负责自研芯片,还是优化现有硬件上的软件效率。Chan在LinkedIn上的职位描述“perplexity per picojoule”看起来既可能指向芯片设计,也可能指向软件优化。路透社报道称,Anthropic正在考虑效仿OpenAI和Meta,自行设计AI芯片,但截至2026年4月相关计划仍处于早期阶段,尚未组建专门团队。Anthropic目前主要在Google的TPU和Amazon芯片上运行Claude,并且最近与Google和Broadcom签署了长期合作协议,这是其承诺在美国计算基础设施上投资500亿美元的一部分。文章认为,定制芯片尤其能在推理阶段改善Anthropic的利润率,而这在AI越来越像基础设施生意、而不只是研究突破故事的背景下尤为重要。
文章称,目前尚不清楚Chan是会专注于设计定制芯片,还是优化现有GPU和TPU上的软件。路透社报道称,Anthropic关于自研芯片的设想仍处于早期阶段,而Chan在LinkedIn上的职位描述“perplexity per picojoule”则暗示其重点是提升单位能耗下的模型性能。
The Decoder

来自 Anthropic、斯坦福等机构的研究人员发现,更大的语言模型之所以更容易学会稀有任务,是因为高频任务对它们的挤占效应更小。该研究还指出,在某些情况下,提高训练数据中目标任务的出现频率,可能比单纯扩大模型规模更有效。
这项研究改变了人们对“扩模型就会更强”的理解:某些能力可能同样取决于任务频率和任务间干扰,而不仅仅是参数规模。如果这一结论被更广泛验证,它可能会影响训练数据的设计方式,让小型或中型模型更高效地学会特定技能。
一项来自 Anthropic、斯坦福以及其他机构的研究认为,更大的语言模型并不只是“学得更快”,而是更能把稀有任务保留下来,直到它们形成可泛化的能力。论文指出,关键差异不仅在于容量大小,还在于训练过程中高频任务对稀有任务的干扰程度。作者的解释是,常见任务会不断把小模型拉向已经占优势的特征,导致稀有任务的信号在积累起来之前就被覆盖掉。于是,小模型容易进入一种“更新—遗忘”循环:某个稀有样本刚学会,随后又被后续训练步骤大幅冲掉。
为了验证这一机制,研究人员测试了不同频率和复杂度的任务混合。结果显示,只有足够大的模型才能学会那些只占训练数据 0.25% 的任务。在一个实验中,稀有任务的总出现次数保持不变,但样本之间的间隔不同;间隔越大,窄模型中的信号衰减就越明显,而宽模型能更好地在两次出现之间保留这些信息。研究团队还训练了参数规模从 400 万到 40 亿不等的 OLMo 模型,并使用来自 Dolma 语料库、最多 2100 亿个 token 的数据,同时加入了数字比较和模加等人工任务。结果表明,只有更大的 OLMo 模型能够学到这些任务背后的规则,并把规则应用到新的样本上,而不是单纯记住个别例子。
其中,模加任务尤其清楚地展示了 grokking 现象,也就是模型先记忆任务,之后突然领悟底层规律。只有更大的模型出现了这种“顿悟”,而且前提是该任务在数据中出现得足够频繁。研究者对模型内部信号的测量也支持这一结论:在一个 10 亿参数模型中,每次包含稀有任务的训练步骤都会明显朝正确答案推进;而在一个 2000 万参数模型中,这类信号几乎被其他更新产生的噪声淹没。论文把记忆视为泛化的必要前提,而不是不应存在的副作用。总体而言,作者认为,与其一味放大模型,不如提高目标任务在训练数据中的频率,这有时可能是固定某项技能的更有效办法。
作者发现,小模型容易陷入“更新又遗忘”的循环:稀有样本刚学到,就会被后续的高频任务更新迅速覆盖。在对 OLMo 模型进行的实验中,研究人员测试了从 400 万到 40 亿参数的模型,并在最多 2100 亿个 token 的训练中加入了稀有人工任务;结果显示,只有更大的模型才能稳定学会这些稀有任务,包括模加任务,并在任务频率足够时出现 grokking 现象。
TechCrunch AI

TechCrunch 指出,微软对 GitHub Copilot 的新定价调整幅度很大,以至于一些用户把这一变化称为“Tokenpocalypse”。这篇文章将此视为整个行业走向更高 AI 价格和更严格用量限制的一个信号。
如果主要 AI 产品从固定费用或强补贴模式转向按 token 计费并设置更严格的上限,企业和开发者的日常使用成本可能会上升。此事之所以重要,还因为它可能影响 AI 公司如何设计 IPO 文件、盈利计划和产品访问策略。
TechCrunch 报道称,微软对 GitHub Copilot 的定价调整幅度很大,以至于一些用户把这次变化戏称为“Tokenpocalypse”。文章借此引出 TechCrunch《Equity》播客上的一场讨论,主题是 AI 行业整体的经济压力。Anthony Ha、Sean O’Kane 和 Kirsten Korosec 认为,这可能只是一个开端,预示着 AI 公司在追求盈利时会面临更大的定价与用量管理压力。Sean O’Kane 提到,随着 AI 公司准备进入公开市场,围绕 token 的风险因素可能会成为招股书中的重要内容。对话中还举了公司内部实际使用 AI 时预算迅速超支的例子,说明很多企业不得不更快地设置封顶和访问限制。
主持人们指出,许多 AI 产品在定价时,商业模式其实还没有真正成熟,因此用户对价格的预期与模型真实推理成本之间一直存在差距。文章也提到,曾经流行的“tokenmaxxxing”在短短几个月内就因为成本问题而迅速失宠。Kirsten Korosec 认为,这种变化速度非常惊人,因为政府监管也在努力追赶强大 AI 系统的更新节奏。整体来看,文章传达的信息是:token 计费、用量限制和 AI 盈利要求正在同时收紧,行业可能正进入一个更昂贵、也更不开放的阶段。
讨论的重点是按 token 计费:成本不再只是固定月费,而是随着模型使用量增长;同时公司也会通过限制用量来控制开支。文章还把这种定价压力与即将到来的 AI 上市联系起来,包括 Anthropic,以及像 Uber 这样的公司内部采用模式快速变化。
TechCrunch AI

据《金融时报》报道,OpenAI计划在未来几周推出一个重新设计的ChatGPT版本,把它打造成集成编码工具和AI代理的“超级应用”。此举旨在增强对企业客户的吸引力,并在潜在IPO之前改善盈利前景。
这表明OpenAI希望把ChatGPT变成高价值付费产品的入口,尤其是在企业工作流中,而不只是一个通用聊天界面。与此同时,这也说明公司正在加大与Anthropic等AI厂商的竞争力度,以寻找更可持续的商业模式。
据《金融时报》报道,OpenAI计划在未来几周推出一个重新设计的ChatGPT版本。新的产品方向将把ChatGPT定位为“超级应用”,而不只是一个聊天机器人。它预计会加入编码工具和AI代理,从而扩大产品在工作场景内外的作用。报道指出,这一目标之一是让OpenAI在企业用户市场上更能与Anthropic竞争。公司同时也希望在潜在IPO之前尽快接近盈利。
战略中的一部分,是把ChatGPT当作入口,把免费用户引导到他们可能愿意付费的产品上,例如Codex。报道称,一名OpenAI高管甚至表示:“聊天已死。”OpenAI核心产品与平台负责人Thibault Sottiaux则表示,公司正在朝着一种“个人代理”产品前进,这种产品可以在个人生活和工作中提供帮助。报道还提到,这种“超级应用”的设想并不新鲜,去年以来已经多次被提及。今年3月,《华尔街日报》曾报道,这一策略变化与OpenAI在2025年推出多款独立产品后重新调整方向有关,公司高层如今表示正在放弃像Sora视频生成器这样的“副业”。
报道指出,ChatGPT可能会引导免费用户转向他们愿意付费的产品,例如OpenAI的编码代理Codex。OpenAI产品负责人Thibault Sottiaux表示,公司正在打造一种“个人代理”,能够在个人和工作场景中提供帮助,而一名OpenAI员工则被引述称:“聊天已死。”
The Decoder

在 Ramp 2026 年 6 月的趋势数据中,DeepSeek 成为增长最快的软件供应商,该指标衡量的是相对于规模的爆发式增长。其近期势头似乎来自美国公司直接为其模型付费,因为它们正在寻找更便宜的 AI 方案。
这一结果表明,企业采购 AI 时正在变得更加看重价格,而不只是性能。如果这一趋势持续下去,更低成本的中国模型可能会给西方厂商带来压力,并加速按性价比采购的更大转变。
在 Ramp 2026 年 6 月的软件供应商趋势数据中,DeepSeek 排到了增长最快的位置,这一类别衡量的是相对于供应商规模的爆发式增长。Ramp 首席经济学家 Ara Kharazian 解释说,这反映的是美国公司直接向 DeepSeek 付费,而不是只是在自己的基础设施上使用开源软件。这个区别很重要,因为这意味着一些企业正在通过 DeepSeek 自己的平台传输数据,这带来了安全和竞争方面的担忧。Kharazian 表示,他怀疑这一趋势不会长期持续,但 DeepSeek 的增长势头在当下确实很强。DeepSeek 在 4 月底推出了 DeepSeek V4,尽管它在整体能力上还比不上最强的西方模型,但价格便宜得多。
文章认为,性能差距远小于价格差距,这解释了为何它会被更多企业采用。DeepSeek 在 2025 年 1 月也曾短暂走红,当时在 Ramp AI Index 中,美国公司的采用率达到 0.3%,随后又回落到 0.1%。Ramp 说明其数据来自 5 万多家公司的真实交易记录。更大的背景是,DeepSeek 和阿里巴巴的 Qwen 等中国模型,正在因为性价比更高而获得更多关注,尽管西方 AI 实验室整体上仍然领先很多。
Ramp 首席经济学家 Ara Kharazian 表示,这并不是自托管开源使用的故事;公司是在直接向 DeepSeek 付费,并通过其平台传输数据。他还警告了安全和竞争风险,并指出 DeepSeek 在 2025 年 1 月的热度曾短暂升温,在 Ramp AI Index 中采用率达到 0.3%,随后又迅速降至 0.1%。