AI 日报

AI 治理、代理化浪潮与平台反制:本周科技日历的三条主线

今天的焦点不是单一模型进展,而是 AI 产业正在同时面对三股力量:法庭与监管对公司治理的追问、企业级代理工作流的规模化扩张,以及平台和学术机构对 AI 滥用的收紧。与此同时,研究界也在提醒我们,模型“看起来更强”并不等于真的理解世界或具备更低成本的可部署性。

当天导读

从 22 条资讯中筛选出 11 条

今天的焦点不是单一模型进展,而是 AI 产业正在同时面对三股力量:法庭与监管对公司治理的追问、企业级代理工作流的规模化扩张,以及平台和学术机构对 AI 滥用的收紧。与此同时,研究界也在提醒我们,模型“看起来更强”并不等于真的理解世界或具备更低成本的可部署性。

OpenAI 同时面对法庭、组织与产品重构

马斯克诉奥尔特曼案进入陪审团阶段,争议延伸到公司治理和 IPO 前景;与此同时,Brockman 正推动 ChatGPT、Codex 和 API 的统一平台化。([1811](#1811), [1817](#1817))

AI 代理已进入高成本真实生产环境

OpenClaw 运行约 100 个 Codex 实例并报出 130 万美元月账单,说明代理式开发正在从实验走向规模化运营。([1814](#1814))

安全与执法都在用 AI 反制 AI

ExploitBench 显示模型可自主构建真实浏览器利用,而 CFTC 正用 AI 追查预测市场内幕交易,形成攻防两端同步升级的局面。([1813](#1813), [1816](#1816))

平台和学术基础设施开始收紧规则

arXiv 对 AI 代写论文加大处罚,YouTube 将深度伪造肖像检测开放给所有成年创作者,说明滥用治理正在制度化。([1810](#1810), [1820](#1820))

模型更强,不代表更理解世界

WorldReasonBench 表明视频模型在视觉上很惊艳,但在物理、逻辑和信息推理上仍明显不足。([1818](#1818))

Google 提醒:AI 搜索仍是传统搜索的延伸

Google 明确否定 GEO/AEO 作为独立学科的说法,把可见性重新拉回到传统 SEO 与内容质量。([1821](#1821))

今日主题

AI 产业正从“能做什么”进入“谁来负责、怎么部署、以及如何约束”的阶段。OpenAI 相关争议、学术平台限流、监管执法加码与产品整合,都指向同一个现实:AI 的下一轮竞争不只发生在模型参数里,也发生在治理结构、成本控制和平台规则之中。

重点观察

  1. OpenAI 仍是舆论与商业的中心:从马斯克诉奥尔特曼案进入陪审团阶段,到 Brockman 接管产品战略、再到收购语音克隆团队,OpenAI 同时在应对法律、组织和产品层面的重塑。(1811, 1817)
  2. AI 代理正在快速“工业化”:OpenClaw 的 100 个代理和 130 万美元月账单,说明 agentic 工作流已不只是 demo,而是能真实吞吐代码、审查和安全任务。(1814)
  3. 约束开始同步收紧:arXiv、YouTube 和 CFTC 分别在科研、内容平台和预测市场上强化审核,显示“AI 滥用”正被各自生态系统更系统地处理。(1810, 1820, 1816)

今日精选

1. OpenAI 相关争议继续外溢

马斯克与奥尔特曼的法庭交锋进入陪审团阶段,争论核心已从事实细节上升到可信度、治理与控制权;若马斯克胜诉,OpenAI 的重组与 IPO 路线都可能被打乱。与此同时,OpenAI 内部产品战略正在向统一平台与 agentic 体验收拢。(1811, 1817)

2. 研究与安全:AI 代理正在学会“真正的攻击链”

卡内基梅隆的 ExploitBench 显示,先进模型已能在真实 V8 漏洞上自主构建浏览器利用,能力边界不再只是“触发漏洞”,而是逼近任意代码执行。对浏览器、Node.js 和云运行时生态而言,这意味着进攻性安全自动化正在加速。(1813)

3. 企业端 AI 代理的成本和规模都在上升

OpenClaw 的案例把“AI 代理能干活”推进到了“AI 代理按月大规模消耗 token”的阶段:代码审查、补丁、漏洞分析、会议转 PR,都已经进入自动化流水线。问题也随之变成成本、效率和组织设计,而不只是能力展示。(1814)

4. 研究基础设施开始抵制 AI 代写

arXiv 收紧规则,明确把“LLM 包办且未经认真核查”的投稿视为可处罚对象,说明预印本生态正在把责任重新压回作者身上。对于习惯把 AI 当写作捷径的研究者来说,平台治理正在改变默认行为。(1810)

5. 视频生成仍强在“像真”,弱在“会想”

WorldReasonBench 进一步证明,领先视频模型能生成漂亮片段,但在物理、逻辑、信息一致性上仍有明显缺口。视觉质量的提升并不等于世界模型成熟,这对未来可控视频生成尤其关键。(1818)

6. 平台与监管开始系统化应对滥用

YouTube 把肖像检测扩展给所有成年创作者,降低深度伪造维权门槛;CFTC 则借助 AI、区块链追踪和市场监控工具追查预测市场内幕交易。两者都说明:AI 时代的治理越来越依赖自动化检测与平台内生规则。(1820, 1816)

7. 搜索与分发规则并没有被 AI 彻底改写

Google 公开表示,AI 搜索可见性本质上仍建立在传统 SEO、排名和质量系统之上,GEO/AEO 的神话色彩被进一步削弱。对出版商和网站来说,基础内容质量依然是最稳的通行证。(1821)

结语

今天的信号很清楚:AI 行业的竞争正在从“谁更聪明”转向“谁能更稳地落地”。法庭、监管、平台和研究机构都在重新划边界,而真正能穿越这一轮洗牌的,很可能是那些既能提升能力、又能控制成本与风险的系统。(1811, 1810, 1816, 1821)

当日精选 8 条

01

MIT Technology Review AI

马斯克与奥尔特曼法庭交锋

·#openai

马斯克与奥尔特曼法庭交锋

在马斯克诉奥尔特曼案的最后一周,双方都把火力集中在质疑对方的可信度上,案件随之进入陪审团阶段。庭审以结案陈词收尾,陪审员将于周一开始商议,并预计下周给出咨询性裁决。

这起案件可能影响 OpenAI 的公司架构、其推进 IPO 的计划,以及马斯克对这家最重要 AI 实验室之一的影响力。它也触及非营利 AI 治理、利益冲突,以及谁来主导通往 AGI 的竞赛等更广泛的问题。

马斯克诉奥尔特曼案的最后一周,核心变成了双方对彼此可信度的正面交锋。OpenAI 首席执行官山姆·奥尔特曼在庭上被追问其据称曾撒谎,以及通过与 OpenAI 有业务往来的公司进行自我交易的指控;与此同时,他把埃隆·马斯克描述为试图夺取通用人工智能,也就是 AGI 发展控制权的人。为了强调 OpenAI 所谓对 AI 安全的承诺,公司甚至拿出了一座金色的驴屁股奖杯,称这是送给一名顶住马斯克加速冲向 AGI 计划的员工的。双方在结案陈词中还在大屏幕上并排展示了马斯克和奥尔特曼的嫌犯照风格图片。马斯克的律师斯蒂芬·莫洛主张,奥尔特曼和 OpenAI 总裁格雷格·布罗克曼违背了马斯克捐款时关于把 OpenAI 保持为服务全人类的非营利组织的承诺,反而建立了一个让他们个人极为富有的营利结构。

OpenAI 的律师莎拉·埃迪则反驳说,奥尔特曼和布罗克曼从未承诺让 OpenAI 永远保持纯非营利状态,并表示公司即便经过重组,仍然是一个致力于安全开发 AI 的非营利实体。她还称马斯克起诉得太晚,而且他的真实目的只是打击竞争对手 xAI,后者是他在 2023 年创立的 AI 公司。陪审团将于周一开始商议,预计下周给出咨询性裁决,但最终判决权在法官手中。若马斯克胜诉,可能打乱 OpenAI 正在推进的 IPO 路线,而其估值据称接近 1 万亿美元。文章还提到,xAI 预计最早将于 6 月作为马斯克航天公司 SpaceX 的一部分上市,目标估值为 1.75 万亿美元。

马斯克要求法院撤销 OpenAI 2025 年的重组,解除山姆·奥尔特曼和格雷格·布罗克曼的职务,并向 OpenAI 的非营利实体判给最高 1340 亿美元赔偿。陪审团的裁决只具咨询性质,不具约束力,最终将由法官作出决定。

查看单篇正文查看原文
02

TechCrunch AI

arXiv收紧AI代写论文规则

·#arxiv

arXiv收紧AI代写论文规则

arXiv正在加强对看起来由大语言模型“包办”且未经认真人工核查的论文的限制。arXiv计算机科学分区主席Thomas Dietterich表示,若作者被认定提交了此类稿件,可能会被禁投一年,之后的投稿还必须先被有声望的同行评审期刊或会议接受。

arXiv是计算机科学、数学等领域非常核心的预印本平台,因此它的政策变化会迅速影响研究人员如何使用AI工具。此次举措表明,学术界正从“允许AI辅助”转向要求人类对准确性、引用和原创性承担明确责任。

arXiv是一个被广泛使用的预印本仓库,正在加强对科研写作中不谨慎使用大语言模型的监管。这个平台在计算机科学和数学等领域扮演着重要的论文传播渠道,尽管论文发布时通常还没有经过同行评审。此前,arXiv已经采取过措施,试图减少低质量的AI生成投稿,例如要求首次投稿者获得资深作者的推荐或背书。与此同时,在Cornell托管超过20年之后,arXiv正在转型为独立的非营利组织,这被认为有助于其筹集更多资金来应对AI垃圾内容等问题。

周四,Thomas Dietterich发文称,如果一篇投稿存在确凿证据表明作者没有核查LLM生成结果,那么审核方就无法信任论文的其余部分。他指出,幻觉引用以及LLM里的注释或来自LLM的注释,都可能构成这种证据。按照新做法,相关作者可能会被arXiv禁投一年,之后再次投稿前还必须先被有声望的同行评审机构接受。Dietterich同时强调,这项政策并不是要全面禁止使用LLM,而是要求作者对提交内容承担全部责任,包括错误引用、偏见内容、抄袭、错误和误导性信息等。

这并不是对LLM使用的全面禁止;arXiv强调,无论内容如何生成,作者都要对提交的一切负责。Dietterich表示,像“幻觉”参考文献、与LLM之间的注释等都可能成为处罚依据,但必须由审核人员和分区主席确认,作者也可以提出申诉。

查看单篇正文查看原文
03

The Decoder

基准显示 AI 可自主构建浏览器漏洞利用

·#ai-security

基准显示 AI 可自主构建浏览器漏洞利用

卡内基梅隆大学研究人员发布了一个新基准,用来衡量 AI 代理利用谷歌 V8 JavaScript 引擎真实漏洞的能力,最高可达到任意代码执行。测试中,Anthropic 的 Claude Mythos Preview 明显优于 OpenAI 的 GPT-5.5,但成本也高得多。

这表明先进 AI 代理正在实质性提升进攻性安全能力,而不只是触发漏洞或做演示。这对浏览器和 JavaScript 引擎安全意义重大,因为 V8 支撑着 Chrome、Edge、Node.js 和 Cloudflare Workers。

卡内基梅隆大学研究人员构建了一个名为 ExploitBench 的基准,用来评估 AI 代理利用谷歌 V8 JavaScript 引擎真实漏洞的能力。与以往只看漏洞是否被触发的测试不同,这个基准把进展分成五个层级,最终目标是实现目标系统上的任意代码执行。由于 V8 为 Chrome、Edge、Node.js 和 Cloudflare Workers 等平台提供支撑,这一测试面对的是非常重要的攻击面。测试结果显示,Anthropic 的 Claude Mythos Preview 表现最好,在偶尔有人类提示的情况下平均得分为 9.90/16,并在 41 个漏洞中有 21 个达到了最高层级。OpenAI 的 GPT-5.5 落后不少,得分只有 5.51 分,而且只在两个漏洞上达到最高层级。

在完全自主模式下,Mythos 仍然拿到 9.55 分,几乎没有明显下降,而通过 Codex 运行的 GPT-5.5 只有 4.30 分。研究中没有其他模型实现完整代码执行。成本差异同样非常惊人:Mythos 的完整测试覆盖 122 个 episode,花费约 36,428 美元,而 GPT-5.5 覆盖 123 个 episode 的成本约为 3,075 美元。研究人员和外部审阅者都认为,Mythos 的表现接近一名相当合格的浏览器和 JS 引擎安全研究员,甚至还能复现一个人类研究者此前花了一年多都没能破解的漏洞利用方式。

该基准采用五个进展层级,终点是任意代码执行,而不是简单崩溃或概念验证触发。Claude Mythos 在偶尔有人类提示的情况下平均得分 9.90/16,并在 41 个漏洞中有 21 个达到最高层级;GPT-5.5 只在两个漏洞上达到最高层级。

查看单篇正文查看原文
04

The Decoder

OpenClaw 运行 100 个 AI 代理,月账单达 130 万美元

·#ai-agents

OpenClaw 运行 100 个 AI 代理,月账单达 130 万美元

OpenClaw 创始人 Peter Steinberger 表示,他的团队在云端运行大约 100 个 Codex 实例,用于写代码、审查拉取请求、发现漏洞和分析安全问题。他称 OpenAI API 在 30 天内的账单达到 130 万美元,消耗了 6030 亿个 token 和 760 万次请求。

这则报道少见地展示了 AI 代理在真实软件项目中的大规模运作,而不仅仅是演示场景。它说明自主编程工作流已经发展到足以支撑非常高的 API 支出,尤其适合那些在探索“如果 token 成本不再是限制,软件会如何构建”的团队。

OpenClaw 开源项目创始人 Peter Steinberger 介绍了他的团队如何借助 AI 来构建软件。根据他的说法,团队大约只有三个人,而且是在 OpenAI 工作,但他们在云端同时运行着大约 100 个 Codex 实例。 这些代理承担了很多工作,包括审查拉取请求、发现提交中的安全漏洞、去重问题以及编写修复补丁。 其中一些代理还会根据项目愿景主动发起 PR,监控基准测试并在出现回归时向 Discord 报告问题。 Steinberger 还表示,代理甚至会“旁听”会议,并为团队讨论到的功能自动创建 PR。 此外,团队还使用 Clawpatch.ai、Vercel Deepsec 和 Codex Security 来做漏洞与安全分析。

在 30 天内,OpenAI API 的账单据称达到 130 万美元,对应 6030 亿个 token 和 760 万次请求。 他指出,使用最多的模型是 GPT-5.5,而且这笔账单由 OpenAI 承担。 当被问到这笔支出是否划算时,Steinberger 认为这取决于看待问题的角度。 他为这项开支辩护称,自己是在探索一种“如果 token 成本不重要,软件会怎样被构建”的开发方式,并表示仅关闭 Fast Mode 就能把成本降低 70%。 他还说,这些系统产出的内容全部是开源的,而且既能与领先的闭源模型配合,也能与开源模型配合,因此他认为整体 ROI 相当高。

Steinberger 表示,这些代理被用于审查 PR、去重问题、编写修复、监控基准测试回归,甚至会“听”会议内容并据此发起功能 PR。他还说,单是关闭“Fast Mode”就能把成本降低 70%,团队同时还使用 Clawpatch.ai、Vercel Deepsec 和 Codex Security 来做漏洞与安全分析。

查看单篇正文查看原文
05

The Decoder

EMO仅用12.5%的专家仍保持接近完整性能

·#mixture-of-experts

EMO仅用12.5%的专家仍保持接近完整性能

艾伦人工智能研究所和加州大学伯克利分校的研究人员开发了 EMO,这是一种混合专家语言模型,其内部模块会专门对应医学、政治等内容领域。在测试中,该模型在仅保留 25% 专家时性能只下降约 1 个百分点,保留 12.5% 专家时也只下降约 3 个百分点。

这说明 MoE 模型可能比传统架构更模块化,也更适合按需部署,从而减少存储占用,并让面向特定领域的模型更容易单独提供服务。如果这种结果能够广泛复现,它可能帮助大语言模型在不明显牺牲准确率的情况下变得更高效、更可控。

来自艾伦人工智能研究所和加州大学伯克利分校的研究人员提出了 EMO,这是一种模块化的混合专家语言模型,它让内部专家围绕内容领域形成分工。与标准 MoE 系统通常学到标点、功能词等浅层模式不同,EMO 被训练成让专家专门负责医学、政治等主题。其核心思路是把文档边界作为训练信号,因为同一篇文档中的 token 往往属于相同领域。训练时,文档内的 token 被强制从共享专家池中选择专家,而这个池通过对整篇文档的路由偏好进行平均来确定。为了保持训练稳定,研究团队把负载均衡从局部 batch 层面改为跨多个文档的全局计算,并在训练中随机改变文档池大小。研究人员使用 OLMoE 预训练语料中的 1 万亿个 token 训练了一个模型,该模型拥有 10 亿活跃参数、140 亿总参数、128 个专家,每个 token 激活 8 个专家。

EMO 的表现与同样训练方式的标准 MoE 持平,而且作者称它在使用五倍数据的情况下仍然优于 OLMoE。最重要的结果是,EMO 可以被大幅裁剪而几乎不掉性能:只保留 128 个专家中的 32 个时,整体性能只下降约 1 个百分点;只保留 16 个专家时,下降也只有约 3 个百分点。相比之下,以同样方式训练的标准 MoE 在相同裁剪条件下会下降 10 到 15 个百分点,有时甚至低于具有相同活跃参数数量的稠密模型。在数学基准 GSM8K 上,只保留 12.5% 专家的子集经过微调后又恢复到了完整模型的性能。论文还指出,要找出有用的专家子集,可能只需要相当少的数据。

EMO 与标准 MoE 训练的不同之处在于,它利用文档边界,让同一文档中的 token 从共享专家池里选择专家,从而促使专家对齐到更高层次的内容领域,而不是停留在浅层语言模式。作者还把负载均衡改为跨多个文档全局计算,并在训练中随机改变文档池大小,以便模型在推理时支持更小的专家子集。

查看单篇正文查看原文
06

Ars Technica AI

CFTC 用 AI 追查预测市场内幕交易

·#prediction-markets

CFTC 用 AI 追查预测市场内幕交易

WIRED 报道称,CFTC 正在加大力度识别并起诉预测市场中的可疑内幕交易,目标包括 Polymarket 等离岸平台。主席 Michael Selig 表示,机构正在使用 AI 和其他监控工具来发现异常交易,其中也包括通过 VPN 访问被屏蔽市场的美国用户。

这表明预测市场正在成为更严肃的监管重点,尤其是在加密货币和离岸访问让执法更困难的情况下。如果 CFTC 能成功利用自动化和区块链追踪识别违规者,可能会改变预测市场的运作方式以及平台的合规设计。

WIRED 报道称,在过去一年里,Polymarket 上一些交易者因对地缘政治事件的下注时机异常而获利丰厚,预测市场因此一度显得像是进入了“新一轮欺诈黄金时代”。由于 Polymarket 的加密平台在技术上属于离岸平台,而且在美国境内被屏蔽,外界此前并不清楚联邦监管机构是否会真正追究这些最明显的违规行为。如今,CFTC 主席 Michael Selig 表示,机构正在密切监视,并计划对识别出的违规交易者采取执法行动。Selig 说,CFTC 重点关注的是那些通过 VPN 访问离岸市场的美国用户。与此同时,CFTC 也在扩充人员,但由于机构“目前非常精简”,它更多依赖自动化系统来处理不断增长的工作量。Selig 表示,机构会把交易数据输入 AI 系统,以帮助发现操纵模式、判断哪里值得调查,以及何时需要向交易者发出传票。

除自研监控系统外,CFTC 还使用 Chainalysis 进行区块链追踪,并用 Nasdaq Smarts 监控中心化市场,不过它没有披露其他 AI 工具的具体名称。报道还提到,预测市场竞争对手也在收紧风控:Kalshi 公开表示已暂停并处罚被标记为内幕交易或市场操纵的用户;Polymarket 则在 4 月因内幕交易争议加剧后宣布与 Chainalysis 合作。随后,Polymarket 更新了市场完整性规则,并宣布与 Palantir 在其美国体育市场上合作,而 Chainalysis 的合作则针对离岸平台。文章还指出,这一领域正面临更广泛的政治压力,包括参议员 Chris Murphy 对白宫工作人员可能参与战争相关合约内幕交易的怀疑,以及 7 名国会议员要求 CFTC 调查海外战争主题事件合约。Selig 还告诉国会,机构已经接到“数百,甚至数千”条内幕交易线索,而且其监控范围是全球性的。

CFTC 表示,它在使用自研监控系统、用于加密追踪的 Chainalysis,以及类似 Nasdaq Smarts 的市场滥用检测软件。该机构的调查范围也不局限于联邦监管交易所,而是覆盖全球市场;Selig 还说,他们已经收到“数百,甚至数千”条内幕交易线索。

查看单篇正文查看原文
07

TechCrunch AI

Brockman接管OpenAI产品战略

·#openai

Brockman接管OpenAI产品战略

据Wired报道,OpenAI联合创始人兼总裁Greg Brockman正直接负责公司的产品战略。OpenAI表示,这一调整是在Fidji Simo休病假期间的临时安排基础上推进的,而Brockman已经提出将ChatGPT和Codex整合为单一体验的计划。

这表明OpenAI正在把产品方向进一步集中到统一的平台上,并将重点放在agentic AI以及面向消费端和企业端的一体化体验上。若这一策略成功,可能会改变用户访问ChatGPT、Codex和API的方式,也会影响其他AI公司如何组织自己的产品体系。

据Wired报道,OpenAI联合创始人兼总裁Greg Brockman现在正式接管了公司的产品战略。这个变化看起来是在把此前已经发生的调整制度化:在负责AGI部署的CEO Fidji Simo休病假期间,Brockman一直以临时身份负责OpenAI的产品。报道称,在一份内部备忘录中,他提出要把ChatGPT和Codex合并成一个统一体验。Brockman将这一调整描述为集中资源、以“最大程度聚焦agentic未来”的方式推进。

OpenAI告诉TechCrunch,Simo虽然仍在休病假,但她参与了这些变化的制定。公司还表示,实际上早就开始讨论把ChatGPT、Codex和API整合到一个单一平台,并由一个核心产品团队统一负责。此次更新发生在Sam Altman去年底宣布OpenAI进入“code red”之后,当时公司被要求重新聚焦ChatGPT核心体验,并停止了包括视频生成器Sora和OpenAI for Science在内的一些“side quests”。

据报道,Brockman在内部表示,OpenAI正在整合产品力量,“以最大程度聚焦agentic未来”。OpenAI还表示,公司早已在讨论将ChatGPT、Codex和API合并为一个单一平台,并由一个核心产品团队负责。

查看单篇正文查看原文
08

The Decoder

WorldReasonBench 揭示视频 AI 的推理缺口

·#ai-video-generation

WorldReasonBench 揭示视频 AI 的推理缺口

清华大学研究人员推出了 WorldReasonBench,这是一个用来测试 AI 视频生成器是否能以符合物理、社会、逻辑和信息约束的方式续写场景的基准。研究同时发布了约 6000 组视频偏好对比数据集 WorldRewardBench,并发现包括 Sora 2、Seedance 2.0 和 Veo 3.1 在内的顶级模型仍然难以做好推理。

这个基准表明,画面好看并不等于模型理解了因果关系,而这正是视频生成和世界模型研究中的关键短板。对于希望生成视频不仅逼真、还要在时间上保持物理和逻辑一致性的开发者与用户来说,这一点非常重要。

清华大学推出了新的基准 WorldReasonBench,用来测试 AI 视频生成器是否不仅能生成好看的画面,还能在续写场景时保持物理、社会、逻辑和信息上的一致性。文章强调,这个基准关注的不是清晰度或视觉逼真度,而是模型是否真正理解场景会如何发展。举例来说,如果给模型一张树枝上的苹果图片并要求它把苹果掉下来,视频可能看起来很顺滑、质感很真实,但却在物理上完全不对。传统的视觉质量指标仍可能给这样的结果高分,而这正是 WorldReasonBench 想要暴露的问题。该基准大约包含 400 个测试用例,覆盖世界知识、以人为中心的场景、逻辑推理和基于信息的推理四个方向。研究团队还发布了 WorldRewardBench,这是一个约 6000 组视频比较组成的数据集,由训练过的标注员进行排序。

评分方法分为两步:先通过过程感知的结构化问题检查视频是否以合理方式到达正确结果,再从推理质量、时间一致性和视觉美感三个方面进行评估。结果显示,商业模型整体领先,但逻辑推理是所有模型最薄弱的类别,基于信息的推理也很难,尤其是在需要精确保留文字、数字或物理上连贯的转换时。研究还发现,当正确答案来自动态过程而不是静态画面时,模型表现更好;而开源模型在提示词写得更详细、步骤更清楚时提升最大。为了验证方法有效性,研究人员把自己的指标与人类偏好排序进行对比,发现该指标与人工判断高度一致,而且明显优于传统的成对视频 AI 裁判。文章最后指出,视频生成虽然在分辨率、时长和可控性上进步很快,但距离真正可靠的世界模型仍有很大差距,未来更需要的是因果机制理解和跨时间的信息一致性,而不只是更漂亮的画面。

WorldReasonBench 大约包含 400 个测试用例,覆盖四类任务:世界知识、以人为中心的场景、逻辑推理以及基于信息的推理。论文称评分采用两阶段的过程感知方法,且研究结果显示逻辑推理是所有测试模型中最难的一类,基于信息的推理也同样很困难。

查看单篇正文查看原文
09

The Decoder

OpenAI 收购语音克隆初创公司 Weights.gg

·#openai

OpenAI 收购语音克隆初创公司 Weights.gg

OpenAI 低调收购了小型初创公司 Weights.gg,这家公司以能够克隆声音的 AI 工具而闻名,甚至包括名人声音模仿。报道还称,这支团队已经并入 OpenAI 的不同部门,而不是继续推出一个独立的 Weights.gg 产品。

这笔收购表明 OpenAI 认为语音 AI 具有重要的战略价值,尤其是在它继续扩展 ChatGPT 和开发者工具的多模态能力时。它也反映出大型 AI 公司正在吸收细分初创团队,并把相关能力整合进更广泛的产品中,而不是单独发布。

据报道,OpenAI 已经收购了 Weights.gg,这是一家以语音克隆工具闻名的小型初创公司,尤其因其能够模仿名人声音而受到关注。最先披露这笔交易的是《纽约时报》,并援引了两名匿名消息人士,但收购价格并未公开。Weights.gg 的运作方式有点像一个社交网络,用户可以创建并分享 AI 算法,其中就包括语音克隆工具。用户可以制作或使用模仿知名人物声音的模型,例如 Samuel L. Jackson、Taylor Swift 和 Donald Trump。根据报道,这家公司大约只有 6 名员工,累计获得了约 400 万美元的风险投资。

Weights.gg 在其网站上于 2026 年 4 月 1 日向社区告别,而这支团队现在已经分布到 OpenAI 的不同团队中工作。消息人士称,OpenAI 并不打算推出一个与 Weights.gg 类似的独立产品。相反,OpenAI 计划把语音技术整合进现有产品,例如 ChatGPT 的语音模式和开发者 API。这个动作也延续了 OpenAI 对语音能力更谨慎、更强控制的路线,因为其曾因安全顾虑限制过相关技术的开放。

Weights.gg 大约只有 6 名员工,累计融资约 400 万美元,但收购价格没有披露。OpenAI 早在 2024 年就展示过自己的语音克隆技术,但出于安全考虑一直限制使用;据称现在它正把语音技术嵌入 ChatGPT 的语音模式和 API 中。

查看单篇正文查看原文
10

The Decoder

YouTube向所有成年创作者开放肖像检测

·#youtube

YouTube向所有成年创作者开放肖像检测

YouTube正在把“肖像检测”工具扩展给所有18岁及以上的创作者。此前,这项功能只向YouTube合作伙伴计划成员开放;现在,用户可以检测未经授权的AI换脸视频,并通过YouTube Studio申请移除。

这意味着深度伪造防护工具从少数创作者扩大到了平台上几乎所有成年人,可能有助于减少他人滥用个人肖像的情况。这也反映出大型平台正试图把AI冒用身份问题纳入自动化审核和自助举报流程。

YouTube宣布,其AI肖像检测功能现已向所有18岁及以上的创作者开放。这个名为Likeness Detection的工具,之前只面向YouTube合作伙伴计划成员,随后才逐步扩大覆盖范围。它的作用是识别其他人是否未经许可,使用创作者的面部生成或篡改出AI换脸视频。当系统发现可能的匹配内容时,创作者可以在YouTube Studio中查看,并依据平台的隐私指南提交移除申请。

设置流程需要在桌面端的YouTube Studio里进入“Content detection”,再选择“Likeness”,用户还必须完成一次性验证并同意使用该检测技术。YouTube表示,该系统会在后台持续运行,即使是小频道也能使用,而且整个扩展会在未来几周内逐步完成。公司还表示,创作者之后也可以退出该计划,并要求删除自己的数据。按照YouTube的政策,移除请求会结合多个因素来判断,例如内容是否逼真、是否标注为AI生成、以及当事人是否可被唯一识别,同时对戏仿和讽刺内容保留例外。

据YouTube介绍,该工具会扫描创作者的面部是否被AI篡改或生成,并在YouTube Studio的“Content detection > Likeness”中提示可能的匹配结果。该系统会在后台持续运行,但它只覆盖面部肖像,不包括声音或其他识别特征;移除请求仍会依据YouTube的隐私政策审核,并为戏仿或讽刺等内容保留例外。

查看单篇正文查看原文
11

The Decoder

Google称AI搜索仍遵循传统SEO

·#seo

Google称AI搜索仍遵循传统SEO

Google 发布了文档,称所谓的 GEO 和 AEO 并不是独立学科,扎实的传统 SEO 就足以帮助网站在 AI Overviews 和 AI Mode 中获得可见性。公司表示,其生成式 AI 搜索功能依赖于与常规 Google Search 相同的排名和质量系统。

这削弱了一个不断扩大的工具和咨询市场——它们主打所谓的 AI 搜索优化技巧,同时也再次强调,AI 搜索可见性仍然取决于基础搜索表现。对出版商和网站所有者来说,最实际的结论是:提升内容质量和传统搜索排名,仍然是最可靠的路径。

Google 正在回击围绕 AI 搜索出现的一波行业术语,称 GEO 和 AEO 并不是独立的优化类别。在新的文档中,公司表示,如果一个网站本来就有扎实的 SEO,那么要在 AI Overviews 和 AI Mode 中获得展示,通常不需要做重大改动。Google 将这件事描述为搜索原则的延续,而不是一门全新的技术学科。公司称,其生成式 AI 功能建立在与普通 Google Search 相同的排名和质量系统之上。它还表示,AI 回答会基于已经进入搜索索引的页面生成,并附带来源链接。

为了生成答案,Google 使用检索增强生成(Retrieval-Augmented Generation),也称为 grounding,并采用 query fan-out 技术,把一次搜索扩展成多个相关的并行查询。这些扩展出来的查询仍然要经过经典排名系统处理,因此在普通搜索中可见性差的网站,在 AI 回答中也很难出现。Google 同时否定了一系列常见但被广泛营销的做法,包括 llms.txt 文件、特殊的 AI 标记、过度切分内容、为 AI 重写内容、制造虚假“提及”,以及过度依赖结构化数据。相反,公司强调应把重点放在体现真实经验和专业性的非“商品化”内容上,并提醒大量批量生成内容仍可能违反其“Scaled Content Abuse”垃圾政策。

Google 表示,其 AI 系统使用检索增强生成(Retrieval-Augmented Generation,Google 也称之为 grounding),先从搜索索引中提取最新页面,再附上可点击链接。它还会使用 query fan-out 并行发出相关查询,但这些扩展查询仍然经过同一套传统排名系统;Google 还说,像 llms.txt、额外标记、拆分内容块和改写关键词等做法,并不是获得生成式 AI 可见性的必要条件。

查看单篇正文查看原文