AI 日报

AI 进入公开市场与监管正面交锋:SpaceX 上市、Anthropic 被叫停

今天的主线很清晰:AI 与资本、监管、产品化三条线同时加速碰撞。SpaceX 以创纪录估值登陆公开市场,而 Anthropic、OpenAI、Meta 和 Visa 的消息则显示,前沿模型正在被政策约束、成本纪律和商业化基础设施重新塑形。

当天导读

从 34 条资讯中筛选出 17 条

今天的主线很清晰:AI 与资本、监管、产品化三条线同时加速碰撞。SpaceX 以创纪录估值登陆公开市场,而 Anthropic、OpenAI、Meta 和 Visa 的消息则显示,前沿模型正在被政策约束、成本纪律和商业化基础设施重新塑形。

SpaceX 以创纪录 IPO 把“航天 + AI 资产”叙事推上公开市场

SpaceX 首日交易大涨,融资规模和估值都刷新纪录,也让市场开始更明确地为其 AI 长期潜力定价。公开市场的监管、披露和股东压力将成为新变量。

Anthropic 模型被政府叫停,AI 监管从讨论进入执行

Fable 5 与 Mythos 5 被全球停用,显示出口管制、国家安全和模型访问权限已能直接影响前沿 AI 的发布与可用性。

代理式 AI 正在从演示走向基础设施

Visa 与 OpenAI 推进代理支付安全框架,OpenAI WebRTC 演示加入文档上下文,显示 AI 代理正在更深地嵌入交易与交互流程。

token 成本成为企业 AI 的新管理核心

微软和 Meta 都在强调 AI 使用不能只看能力,还要看成本;前者谈‘认知覆盖’,后者则上预算、配额和告警。

基准继续突破,但可信度与落地能力同样重要

Fable 5 和 Gemini-SQL2 都显示模型能力在推进;而毕马威报告风波提醒,企业级 AI 产出若缺乏人工核验,反而会损害可信度。

创意行业的 AI 未来更像协作流程,而非全自动生成

翠贝卡案例表明,真正可用的影视 AI 仍依赖艺术家主导的混合工作流,而不是通用提示词一键出片。

今日主题

资本市场正在把 AI 与“下一代基础设施”定价,而监管正在把前沿模型拉回可控边界。与此同时,企业内部开始更严肃地管理 token 成本,代理式商业和工作流自动化则继续向主流渗透。

头条:SpaceX 创纪录上市重塑 AI/航天估值叙事

SpaceX 以每股 135 美元完成 IPO,融资 750 亿美元,并在纳斯达克首日上涨至 160.95 美元,成为历史上规模最大的 IPO 之一。[2477] 报道进一步指出,市场不仅在为火箭与 Starlink 定价,也在为其 AI 相关长期潜力买单;但这也意味着公司将进入更严格的公开披露与股东压力之下。[2507]

监管焦点:前沿模型不再只由实验室决定

Anthropic 因美国商务部指令,全球停用了 Fable 5 与 Mythos 5,显示出口管制与国家安全因素已能直接改变模型可用性。[2505][2506] 随后又有报道指向 Amazon CEO 曾向美国官员提出相关安全担忧,说明这一轮政策收紧并非孤立事件。[2508]

OpenAI 也面临州总检察长调查,范围涉及广告、用户留存、模型“谄媚性”、消费者与健康数据,以及对未成年人和老年人的保护。[2503] 这一组合表明,AI 监管正在从抽象讨论进入具体产品层面的执法。

产品与基础设施:代理式 AI 正在“接上支付”和“接上工作流”

Visa 与 OpenAI 宣布合作,为代理式交易建立安全与授权框架,推动 AI 购物和支付更接近主流应用。[2517] 这与 OpenAI WebRTC 演示加入文档上下文的更新相呼应,后者展示了实时语音模型如何更自然地嵌入具体任务场景。[2513]

在企业工作流方面,微软与中国高校提出的 SkillOpt 表明,AI 代理的表现不只取决于模型权重,也取决于可训练的“技能文档”。[2510] 这类方法如果稳定有效,意味着很多代理能力可以被模块化复用。

成本与能力:token 经济学变得更重要

微软 CEO Satya Nadella 公开提醒不要盲目“token-maxing”,强调能力提升必须匹配成本回报,并把未来开发者的核心能力概括为“认知覆盖”。[2514] Meta 也被报道正在收紧内部 AI 令牌管理,用预算、配额和告警应对接近数十亿美元的内部支出。[2516]

与此同时,Moonshot AI 发布 Kimi K2.7 Code,以显著更低的每 token 价格进入开源编码模型竞争,凸显高性能 AI 的成本下行压力。[2512]

能力进展:前沿模型继续刷新基准,但争议也同步增加

Anthropic 的 Claude Fable 5 被报道在 FrontierMath 上取得领先成绩,说明数学推理仍在快速推进。[2511] Google Research 也称 Gemini-SQL2 在文本转 SQL 基准上大幅领先,聚焦于更可靠的数据查询生成。[2515]

但与此同时,毕马威撤下 AI 报告,原因是其中关于机构 AI 使用情况的说法被多方指出不准确或误导,提醒行业:AI 生成内容一旦缺乏人工核验,信誉成本会迅速放大。[2518]

视觉与创意:AI 还没取代导演,只是在改变流程

《The Verge》对翠贝卡电影节 AI 作品的观察指出,真正有潜力的不是通用文本转视频,而是艺术家主导、混合人工流程的项目。[2520] 这意味着在创意行业,AI 目前更像协作工具,而不是自动化替代品。

值得继续关注

  • SpaceX 上市后的交易量、后续披露,以及其 AI 叙事是否会继续支撑估值。[2477][2507]
  • Anthropic 模型下线事件是否会引发更广泛的出口管制与模型分发调整。[2505][2506][2508]
  • OpenAI 调查、Visa 合作与代理式商业基础设施如何共同影响产品设计与合规边界。[2503][2517]
  • 企业是否会把 token 管理、技能文件和代理治理变成标准化能力。[2510][2514][2516]

当日精选 8 条

01

TechCrunch AI

SpaceX创纪录IPO登陆纳斯达克

·#spacex

SpaceX创纪录IPO登陆纳斯达克

SpaceX 完成了一次 IPO,以每股 135 美元定价发行 5.556 亿股,融资 750 亿美元,成为历史上规模最大的 IPO。该股在纳斯达克以 150 美元开盘,盘中一度上涨 30%,最终收于 160.95 美元,较发行价上涨 19%。

这对航天和卫星互联网行业都是一个里程碑式的公开市场事件,说明投资者愿意为 SpaceX 的发射业务和 Starlink 网络给予极高估值。此交易也会影响资本市场格局,投行将获得巨额费用,同时市场再次聚焦埃隆·马斯克对这家全球最有价值公司之一的控制权。

SpaceX 多年来一直因可重复使用火箭发射、Starlink 卫星网络扩张以及创始人兼首席执行官埃隆·马斯克的高知名度而受到关注。TechCrunch 表示,在公司 24 年的历史中,没有任何事件能与这次 IPO 相比,并将其称为历史上规模最大的 IPO。公司以每股 135 美元的价格发行 5.556 亿股,融资 750 亿美元;如果这一定价成立,也意味着马斯克有望成为世界上首位万亿美元富翁。该股在纳斯达克以 150 美元开盘,较发行价上涨 11%,并在全天继续走高。到午盘时,股价一度上涨 30%,最终收于 160.95 美元,较 IPO 价格上涨 19%。

交易量非常大,Robinhood 表示在 SpaceX 历史性上市后的数小时内,其交易平台流量创下纪录。文章还提到,SpaceX 首席运营官 Gwynne Shotwell 在 CNBC 采访中表示,SpaceX 与 Tesla 合并可能会让马斯克的生活更轻松。参与交易的银行预计总共可获得约 5 亿美元费用,其中 Goldman Sachs 和 Morgan Stanley 被认为是主要受益者。马斯克本人也在 X 上庆祝此次上市,公开感谢 SpaceX 员工,并转发了与“绿鞋机制”相关的图片,暗示承销商可能行使超额配售选择权。TechCrunch 将这篇文章定位为持续更新的实时报道,并表示会继续跟踪股价、挂牌情况及 SpaceX 成为上市公司后的更广泛影响。

TechCrunch 表示,这次发行带来了巨大的交易量,Robinhood 也出现了创纪录的访问流量,而承销银行据称总共获得了约 5 亿美元费用。文章还提到,马斯克拥有约 85.1% 的投票权,SpaceX 在 2025 年以超过 180 亿美元营收录得 49 亿美元亏损,自成立以来累计亏损已超过 370 亿美元。

查看单篇正文查看原文
02

Ars Technica AI

Anthropic在美国指令后停用Fable 5和Mythos 5

·#ai-policy

Anthropic在美国指令后停用Fable 5和Mythos 5

Anthropic在周五晚上突然在全球范围内停用了新发布的Fable 5和Mythos 5模型。公司表示,它收到了美国商务部的指令,要求遵守出口管制,而这在实际操作中意味着必须暂停美国境外用户的访问,最终也关闭了所有客户的使用权限。

这是前沿AI实验室因政府出口管制担忧而被迫撤回新发布模型的一个重大案例。它表明,AI部署决策如今不仅会受到技术安全问题影响,也会受到快速变化的国家安全政策影响。

Anthropic在周五晚间完全关闭了对Mythos 5和Fable 5模型的访问,而这两款模型距离发布只有几天时间。公司表示,这一举措源于它收到了一份美国商务部指令,对这些新模型实施出口管制。Anthropic称,该命令要求暂停任何外国国民的使用权限,无论其身处美国境内还是境外,因此若要立即合规,就只能让所有客户都无法访问这两款模型。Anthropic强调,其他模型的访问不受影响。公司在声明中表示,它是在遵守法律指令,但不同意仅因发现一种范围很窄的越狱方式,就需要召回一款面向数亿用户的商业模型。

Axios报道称,政府担心存在一种越狱方法,可能绕过原本用于阻止网络安全、化学和生物学相关提示的分类器安全措施。报道还称,政府希望争取时间让“国家安全体系”对这类威胁进行“加固”,这一过程可能在未来几周内完成。Anthropic则表示,政府只提供了关于一种可能存在的、非通用越狱方法的口头证据,该方法涉及让Fable 5审查某个特定代码库以寻找软件漏洞。公司称,它所看到的证据只显示出一些“轻微”且“相对简单”的漏洞,而类似能力在其他公开可用模型中也存在,例如GPT-5.5。Anthropic还向客户道歉,称这次中断源于一次“误解”,并表示将在24小时内发布更多细节。

Anthropic表示,政府只提供了关于一种可能存在的、范围很窄的越狱方法的口头证据,据称是让Fable 5审查某个特定代码库中的软件缺陷。公司不同意因此对商业模型进行全面召回,并表示其他Anthropic模型不受影响,同时承诺在24小时内公布更多细节。

查看单篇正文查看原文
03

TechCrunch AI

Anthropic's safety warnings may have just backfired — the government has pulled the plug on its most powerful AI | TechCrunch

·#ai-policy

Anthropic's safety warnings may have just backfired — the government has pulled the plug on its most powerful AI | TechCrunch

The U.S. government reportedly ordered Anthropic to disable its Claude Fable 5 and Claude Mythos 5 models worldwide over national security concerns, prompting Anthropic to comply while disputing the decision.

This is a major AI industry and policy development involving a government-ordered shutdown of Anthropic’s most powerful models, with clear implications for model governance, export controls, and frontier AI deployment. No comments were provided to assess discussion quality.

The U.S. government on Friday ordered Anthropic to immediately shut off access to two of its most powerful AI models — Claude Fable 5 and Claude Mythos 5 — citing national security concerns. Anthropic announced on X that it has complied, but it made clear it thinks the government got this one wrong. The directive, which Anthropic said it received on Friday at 5:21 pm ET, forces the company to disable both models for all users worldwide — not just the foreign nationals the government’s export control order was nominally aimed at. Access to Anthropic’s other models isn’t affected. Why does any of this matter?

查看单篇正文查看原文
04

Ars Technica AI

SpaceX 以巨额 AI 估值上市

·#spacex

SpaceX 以巨额 AI 估值上市

SpaceX 于周五成为上市公司,在 NASDAQ 以每股 135 美元开盘,公司估值接近 1.8 万亿美元。该股收盘报 160.95 美元,涨幅超过 19%,使这次上市成为近年航天行业最引人注目的市场事件之一。

这次上市让这家最重要的航天公司之一直接接受公开市场审视,其估值将受到明确财务预期的检验。它也表明,投资者越来越把 SpaceX 看作不仅是火箭和卫星公司,还可能是与企业级工作负载和轨道数据中心相关的 AI 基础设施标的。

Space Exploration Technologies,也就是 SpaceX,在成立将近 25 年后成为了一家上市公司。该公司在纽约的 NASDAQ 以每股 135 美元开始交易,估值接近 1.8 万亿美元。到当天收盘时,股价上涨到 160.95 美元,涨幅超过 19%。从纸面上看,埃隆·马斯克凭借在公司的持股成为世界上第一位万亿美元富豪,而数千名在职和前员工也因为公司的股票期权计划一夜之间成为百万富翁。文章指出,这既是对多年高强度工作的回报,也引出了一个更深层的问题:SpaceX 的估值是否真的应该高到这个程度。

市场上对这一点存在分歧,有人认为它像是“金玉其外”,也有人认为这是少数能真正拥有的、占据主导地位的航天公司股份。文章强调,随着公开披露要求的到来,SpaceX 必须在股东期待的聚光灯下运作。更关键的是,公司自己在 5 月提交的 S-1 文件中暗示,其价值并不主要来自现有的太空运输或 Starlink 业务。相反,马斯克和 SpaceX 认为,未来价值的大头来自 AI 服务,主要通过太空提供,并面向企业客户。这意味着投资者很可能会要求公司把时间和资本更多投向支撑这一 AI 叙事的方向,而不仅仅是火星或登月目标。

SpaceX 在 5 月提交的 S-1 文件中表示,其传统的“太空赋能解决方案”和 Starlink 只占总可寻址市场价值的不到 7%,而大部分价值判断集中在主要通过太空提供的 AI 服务上。尽管埃隆·马斯克凭借所有权和投票权仍保有自主权,但公司现在必须接受公开披露要求,并承受股价表现带来的股东压力。

查看单篇正文查看原文
05

TechCrunch AI

Amazon CEO reportedly raised Anthropic model concerns before government crackdown | TechCrunch

·#ai-policy

Amazon CEO reportedly raised Anthropic model concerns before government crackdown | TechCrunch

Amazon reportedly raised security concerns about Anthropic models with U.S. officials, contributing to a government crackdown that cut off worldwide access to two models.

This is a high-impact industry and policy story involving Amazon, Anthropic, and reported government export controls on AI models, with potential implications for model access, AI security, and cloud customers. The article is primarily a news report rather than a technical deep dive, and no comment discussion is provided to assess community debate.

Amazon CEO Andy Jassy may have been the source of security concerns that led Anthropic to cut off worldwide access to two models on Friday. The Wall Street Journal reports that Jassy told Treasury Secretary Scott Bessent and other government officials that Amazon researchers used Anthropic’s Claude Fable 5 to obtain information that could be used in cyberattacks. The government subsequently imposed an export control ban on the Fable 5 and Mythos 5 models.

查看单篇正文查看原文
06

TechCrunch AI

OpenAI 面临州总检察长调查

·#openai

OpenAI 面临州总检察长调查

一批州总检察长已对 OpenAI 展开调查,其中纽约州总检察长办公室于周五向其送达了传票。传票据称要求提供与广告、用户参与度和留存、模型“谄媚性”、消费者与健康数据处理,以及对未成年人和老年人保护相关的文件。

这意味着 OpenAI 正面临更大的监管压力,而 AI 公司本就因安全、隐私和消费者保护问题受到越来越多审查。此次调查可能影响聊天机器人如何被营销、如何处理敏感数据,以及对弱势用户需要设置哪些保护措施。

据报道,一批州总检察长已对 OpenAI 展开调查,其中纽约州总检察长在周五向其送达了传票。传票涉及的范围很广,包括广告、用户参与度和留存、模型“谄媚性”、消费者和健康数据的处理,以及对未成年人和老年人的保护。OpenAI 表示,它重视这些担忧,并打算与相关官员建设性合作。公司还称,当前的 ChatGPT 为未成年人和处于困境中的人提供了更具保护性的体验,会通过安全机制引导他们联系现实世界中的资源和可信赖的人类联系人。OpenAI 另外强调,它使用年龄预测功能,提供家长工具,并且不允许针对儿童的广告定向投放。公司没有披露参与调查的具体州,也没有说明传票要求提交哪些文件。

TechCrunch 表示已联系纽约州总检察长办公室寻求确认。此次调查发生在 OpenAI 已经面临其他法律和监管挑战之际,包括版权诉讼以及涉及 ChatGPT 与用户自杀的指控。就在本月早些时候,佛罗里达州总检察长詹姆斯·乌斯迈尔起诉 OpenAI 和首席执行官山姆·奥特曼,指控他们无视安全警告,让儿童面临风险。文章还提到,奥特曼最近就加拿大 Tumbler Ridge 社区发生的大规模枪击事件道歉,因为 OpenAI 曾标记并封禁嫌疑人的 ChatGPT 账户,但没有向执法部门报警。与此同时,OpenAI 本周宣布已秘密提交上市申请。

OpenAI 表示将与各州总检察长办公室建设性沟通,并强调其年龄预测、家长工具以及禁止面向儿童投放定向广告的做法。公司没有披露参与调查的具体州别,也没有说明具体要求提供哪些信息,TechCrunch 还表示已向纽约州总检察长办公室求证。

查看单篇正文查看原文
07

The Decoder

SkillOpt 用 Markdown 技能提升 GPT-5.5

·#ai-agents

SkillOpt 用 Markdown 技能提升 GPT-5.5

微软与三所中国大学提出了 SkillOpt,这是一种把 AI 代理的指令文档当作可训练状态来优化的方法。报道中的结果显示,一个经过训练的 Markdown 技能文件让 GPT-5.5 在流程型任务上的表现提升了 20 多分。

这项工作表明,代理性能的一大部分可能来自更好的指令载体,而不仅仅是更强的模型权重。如果这种方法稳定有效,团队就可以把技能单独训练,并在不同模型和环境之间复用,从而提升工具使用型代理和工作流自动化能力。

微软与三所中国大学的合作者提出了 SkillOpt,这种方法把 AI 代理的指令文档当作一种可以像模型参数一样被优化的对象。论文讨论的对象是所谓的“技能”文件,它们通常包含流程步骤、工具使用规则、输出格式和已知失败模式等内容。作者指出,这类技能已经在商业系统中很常见,但以往的编写方式大多只是人工撰写、一次性由大模型生成,或者进行较为松散的自我修订,并不是真正意义上的优化。SkillOpt 的做法是让一个单独的语言模型读取代理运行日志,发现反复出现的错误和成功模式,然后提出小幅修改,例如增加、删除或替换技能文档中的片段。每次候选修改都必须先通过留出的验证集检验,只有确实提升表现才会被保留。

作者还把深度学习中的一些概念映射到文本层面,例如用受限的编辑预算限制每一步能改动多少,用调度器在训练轮次中逐步缩小步长,用回收缓冲区保存被拒绝的修改作为负样本,以及在每个 epoch 结束时做一次缓慢更新来保持稳定的编辑方向。训练结束后,优化器模型就不再需要了,部署时目标模型只需接收一个大约 300 到 2000 个 token 的 Markdown 文件作为上下文。根据文中的实验,SkillOpt 在 6 个基准上进行了测试,这些基准覆盖搜索、电子表格、文档分析、数学和具身行动,并使用了 7 个目标模型,包括 GPT-5.5 和较小的 Qwen3.5-4B。结果显示,它在所有对比方法中都能做到领先或持平,这些方法包括手写技能、一次性 LLM 生成技能,以及 Trace2Skill、TextGrad、GEPA 和 EvoSkill 等专门方法;其中 GPT-5.5 在 6 个基准上的平均提升约为 23 分。

SkillOpt 使用一个冻结的目标模型和一个单独的优化器模型,后者根据运行日志编辑技能文档,且只有在验证集上更好时才接受修改。训练完成后,技能会以大约 300 到 2000 个 token 的普通 Markdown 文件形式部署,论文称其在 6 个基准和 7 个目标模型上都取得了提升。

查看单篇正文查看原文
08

The Decoder

Claude Fable 5 在 FrontierMath 上领先

·#llm-benchmarks

Claude Fable 5 在 FrontierMath 上领先

据报道,Anthropic 的 Claude Fable 5 在 FrontierMath 上取得了当前最强成绩,在第 1 到第 3 层级达到 87%,在最难的第 4 层级(v2)达到 88%。文章称,这让它在 FrontierMath 最 कठिन 的题目上比 GPT-5.5 高出 13 分。

FrontierMath 被认为是人工智能数学推理中最难的基准之一,因此在这里取得明显提升,意味着模型推理能力可能有了实质进步。这些结果也可能影响实验室和用户对高级推理模型进展速度的判断,尤其是在数学密集型任务上。

据报道,Anthropic 新模型 Claude Fable 5 在数学推理能力上取得了显著跃升。文章称,它在 FrontierMath 的第 1 到第 3 层级准确率达到 87%,在最难的第 4 层级(v2)达到 88%。这一表现使它在 FrontierMath 最难题目上比 GPT-5.5 高出 13 分。文章强调,所有模型都使用 Epoch AI 的标准脚手架并开启最大推理努力进行测试,这样的设置让比较更具可比性。

文中还将这一结果放在 Anthropic 模型家族快速进步的背景下来看。作为对比,Opus 4.5 在 2026 年初的第 4 层级得分还低于 10%,说明数学性能在很短时间内提升非常快。文章也提到,基准之外的真实推理案例似乎同样在增加,例如一个 OpenAI 模型和 Claude Mythos 都曾解决一个长期存在的 Erdős 问题。总体来看,这篇报道把 Fable 5 描述为前沿模型在极难数学任务上持续进步的信号,但核心仍是一则基准成绩新闻,而不是完整的技术发布。

所有模型都使用 Epoch AI 的标准脚手架并开启最大推理努力进行测试,这一点很重要,因为基准设置会显著影响结果。文章还提到,Anthropic 早先的 Opus 4.5 在 2026 年初的第 4 层级得分还低于 10%,说明报道中的数学能力提升速度非常快。

查看单篇正文查看原文
09

The Decoder

Kimi K2.7 Code 大幅降价

·#ai-models

Kimi K2.7 Code 大幅降价

月之暗面推出了 Kimi K2.7 Code,这是一款面向复杂编程任务和智能体工作流的开源权重模型。它的定价为每百万输入 token 0.95 美元、每百万输出 token 4.00 美元,远低于 GPT-5.5 和 Claude。

这次发布为重视成本与能力平衡的软件工程团队增加了一个强力的开源权重选择。如果它在智能体编程工作流中的表现足够好,那么巨大的价格优势会让大规模使用比顶级闭源模型更可行。

月之暗面发布了 Kimi K2.7 Code,这是一款面向编程和基于智能体的编码工作流的新开源权重模型。公司表示,它的目标是在长时间运行、复杂的软件工程任务上优于 Kimi K2.6,但对于编码之外的一般任务,仍建议使用 K2.6。该模型已在 Hugging Face 上开放下载,而 Cursor 也被提到会以修改后的形式转售 Kimi。K2.7 Code 采用 MoE 架构,总参数量达到 1 万亿,但每个 token 只激活 320 亿参数;它共有 384 个专家,每个 token 会选择其中 8 个。模型支持 25.6 万 token 的上下文窗口,并通过一个名为 MoonViT 的定制视觉编码器处理文本、图像和视频,该编码器本身有 4 亿参数。

月之暗面称,新模型的推理效率更高,比 K2.6 少使用约 30% 的思考 token,这有助于减少智能体编程场景中的“过度思考”。模型还强制启用思考模式,并提供 preserve_thinking 模式,以便在多轮对话中保留推理内容。部署方面,K2.7 Code 可通过 Kimi API、Kimi Code CLI,以及 vLLM 和 SGLang 等推理框架使用,同时还提供原生 INT4 量化,便于在性能较弱或更便宜的硬件上运行。价格是这篇报道的核心:K2.7 Code 的定价为每百万输入 token 0.95 美元、每百万输出 token 4.00 美元,缓存命中后输入成本可降至每百万 token 0.19 美元。与 GPT-5.5、Claude Opus 4.8 以及 Anthropic 的 Claude Fable 5 相比,它明显便宜得多;文章还指出,Fable 5 在输出价格上贵了 12 倍以上。

K2.7 Code 采用 MoE 架构,总参数量为 1 万亿,但每个 token 仅激活 320 亿参数,支持 25.6 万 token 上下文,并具备图像和视频的多模态能力。月之暗面表示,它比 K2.6 少使用约 30% 的思考 token,还支持 preserve_thinking 模式,并可通过 Kimi API、Kimi Code CLI、vLLM、SGLang 以及原生 INT4 量化运行。

查看单篇正文查看原文
10

Simon Willison

OpenAI WebRTC 演示加入文档上下文

·#openai

OpenAI WebRTC 演示加入文档上下文

Simon Willison 更新了他的 OpenAI WebRTC 音频演示,支持 OpenAI 更新的 GPT-Realtime-2 模型。这个工具现在还支持粘贴文档文本,让用户可以在浏览器里围绕这些上下文与模型进行语音对话。

这是一个实用示例,展示了如何把实时语音 API 与用户提供的上下文结合起来,让对话更有用。它对构建语音助手、基于浏览器的 AI 工具,以及需要更丰富、具备文档感知能力的交互流程的开发者尤其相关。

Simon Willison 为他的 OpenAI WebRTC Audio Session 演示做了两项值得注意的更新。首先,这个工具现在支持 GPT-Realtime-2,也就是 OpenAI 新加入实时音频 API 的模型。其次,它允许用户在开始会话前粘贴一大段文档上下文,这样模型就可以围绕这些内容进行语音对话。Willison 说,他最初在 2024 年 12 月构建了这个工具,用来试验 OpenAI 新推出的 WebRTC API 和实时音频模型。

后来 OpenAI 在上个月发布了 GPT-Realtime-2,他便重新回到这个旧的实验项目,并表示自己一直在等待这类模型出现在 ChatGPT iPhone 应用中。文章中的截图展示了一个浏览器界面,包含模型选择器、语音选择器、API 令牌输入框,以及一个可选的文档上下文区域。示例里粘贴的内容似乎是在讨论 DuckDB 能否安全运行不受信任的 SQL,底部的会话记录也开始围绕这一主题作出回应。整体来看,这次更新把它变成了一个更实用的浏览器语音实验台,便于测试具备文档感知能力的实时对话。

Willison 最初在 2024 年 12 月构建了这个工具,用来试用 OpenAI 当时新推出的 WebRTC API 和实时音频模型。更新后的版本重点支持 GPT-Realtime-2,OpenAI 将其描述为首个具备 GPT-5 级推理能力的语音模型,并注明其知识截止时间为 2024 年 9 月 30 日。

查看单篇正文查看原文
11

The Decoder

纳德拉警告不要盲目“token-maxing”

·#ai-models

纳德拉警告不要盲目“token-maxing”

微软首席执行官萨提亚·纳德拉表示,开发者不应把最强大的 AI 模型用于每一项任务,并认为生产力提升必须匹配 token 成本。他还承认自己也是“token-maxer”,并称这种习惯“很上瘾”。

这些评论反映出 AI 领域正越来越重视模型使用成本,而不仅仅是能力本身。纳德拉的观点也指向一种未来:开发者不再亲自写下每一行代码,而是监督 AI 代理,这可能重塑软件工程的工作流程。

微软首席执行官萨提亚·纳德拉在一次采访中批评了“token-maxing”,也就是不考虑成本是否合理,就把最强大的 AI 模型用于每一项任务的做法。他认为,生产力的边际提升必须与所消耗 token 的边际成本相匹配。在他看来,前沿模型应该留给真正需要这种能力的问题,而不是被不加区分地用在日常工作上。与此同时,他也承认自己有同样的倾向,并表示“我也像个 token-maxer,所以这很上瘾”。

纳德拉随后把这个话题延伸到一个由 AI 代理驱动的软件开发愿景中。他说,未来开发者的主要工作不会是亲自写代码,而是监督数百甚至数千个由 AI 代理完成编码任务。为此,他提出新的核心能力是“认知覆盖”,也就是能够深入理解代理生成的代码。纳德拉补充说,这仍然需要计算机科学教育,但工作的日常形态会发生很大变化。

纳德拉表示,前沿模型不应被浪费在日常问题上,并警告说“纯粹的 token-maxing”不会带来真正的经济增长。他把新的核心技能称为“认知覆盖”,意思是开发者必须深度理解由代理生成的代码,即使系统里有数百或数千个代理也一样。

查看单篇正文查看原文
12

The Decoder

Gemini-SQL2 领先文本转 SQL 基准

·#ai-research

Gemini-SQL2 领先文本转 SQL 基准

Google Research 表示,Gemini-SQL2 在文本转 SQL 基准测试中以明显优势领先。该模型据称生成的 SQL 不仅看起来正确,而且能够在复杂查询上成功执行。

文本转 SQL 是一个实用但很难的问题,更强的表现有望让非技术用户用自然语言做数据分析时更可靠。若这些结果经得起验证,它们可能会改善谷歌的数据产品以及其他商业智能工具中的查询交互。

Google Research 表示,Gemini-SQL2 在文本转 SQL 基准测试中取得了明显领先。文本转 SQL 的核心任务,是把用户的自然语言问题转换成能够准确查询数据库的 SQL。谷歌认为,这项任务之所以特别困难,是因为现实世界的数据通常是分层的,而且查询往往必须体现复杂的业务逻辑。根据公司说法,Gemini-SQL2 生成的 SQL 不仅看起来正确,而且还能成功运行。

谷歌还表示,更好的 SQL 理解能力可能会进一步提升其各类数据服务中的自然语言功能。与此同时,研究团队尚未宣布任何公开发布计划。现在也还没有论文可供查看,因此目前的信息主要来自谷歌对这项结果的描述。

谷歌强调,这一难点在于数据结构通常较复杂,并且查询需要考虑业务逻辑,因此生成正确的 SQL 比仅仅生成语法正确的代码更难。该公司尚未宣布公开发布,也还没有发表论文。

查看单篇正文查看原文
13

The Decoder

Meta收紧内部AI令牌管理

·#meta

Meta收紧内部AI令牌管理

据报道,Meta正从宽松的内部AI使用转向更严格的令牌预算和使用监管,因为员工AI支出已飙升至接近数十亿美元。公司计划从2027年开始通过预算、配额、告警和一个名为AI Gateway的中央仪表盘来监控使用情况。

这说明即使是像Meta这样的大公司,内部AI使用也会很快变成一项巨大的运营成本。它还反映出企业AI治理的更广泛转向:公司开始把模型访问和令牌消耗当作需要预算管理的资源,而不是无限制的福利。

据报道,Meta正在通过新的管理措施来应对内部AI成本快速上升的问题,重点是控制谁在使用AI、使用多少以及用于什么目的。根据The Information,一份发给约6,000名员工的内部备忘录称,公司已经看到AI使用量“指数级增长”,而到2026年,内部AI成本可能会达到数十亿美元。此前,员工和团队对自己的消耗几乎没有可见性,这让支出更难控制。作为回应,Meta计划从2027年开始通过预算、配额和专门的跟踪工具来更严格地管理令牌。公司已经搭建了一个名为AI Gateway的中央仪表盘,用于集中查看使用量和支出。Meta还计划对异常成本飙升发出自动告警。

同时,公司希望员工少用Anthropic的Claude等第三方模型,多用自家的编码助手MetaCode。不过,Meta自己的模型目前还不算前沿竞争力最强,因此外部模型仍会保留可用。报道称,Meta的Applied AI Engineering部门工程师还在通过生成编码任务作为训练数据来改进MetaCode。此前,Meta曾把AI使用定为绩效考核中的“核心期望”,这据称引发了所谓的“tokenmaxxing”,员工通过内部排行榜Claudeonomics故意夸大使用量,在刚过30天的时间里累计消耗了73.7万亿个令牌。CTO Andrew Bosworth随后在另一份备忘录中反驳称,使用AI工具不应只是为了使用而使用,令牌消耗本身并不能衡量任何实际影响。

据称,一份发给约6,000名员工的内部备忘录警告称,AI使用量出现“指数级增长”,并指出到2026年仅内部使用的成本可能达到数十亿美元。Meta还在引导员工使用自家的编码助手MetaCode,而不是Anthropic的Claude等第三方工具,不过外部模型仍会继续可用。

查看单篇正文查看原文
14

ZDNET AI

Visa与OpenAI推进智能代理支付

·#ai-agents

Visa与OpenAI推进智能代理支付

Visa和OpenAI于周三宣布达成合作,将在OpenAI产品中支持代理式交易,包括Atlas和ChatGPT Shopping等界面。Visa表示,其Trusted Agent Protocol及其他安全层将允许开发者和商家在用户设定的控制条件下接受AI代理发起的支付。

这项合作让AI驱动的购物和支付更接近主流,并为可信交易提供了大型品牌共同使用的框架。随着代理式商业逐渐成为人们搜索、购买和自动化日常采购的一部分,它可能影响消费者、商家和支付服务提供商。

ZDNET报道,Visa和OpenAI宣布达成合作,目标是在OpenAI系统内部为代理式交易提供安全保障。Visa表示,这项合作旨在把代理式商业带入主流,并把自身的安全和授权层与OpenAI的Atlas、ChatGPT Shopping等界面结合起来。公司称,消费者和企业可以让AI代理代为完成购买,但仍会通过事先设定的规则来保持买方对交易的控制。这些规则包括支出上限、审批阈值以及其他权限层。

Visa还表示,此举的目标是让全球用户和商家都能更容易、更可信、更安全地使用代理式商业。文章把这一公告放在一个快速发展的行业背景中,指出OpenAI已经与Stripe合作推出了Instant Checkout,而Google和Mastercard最近也都在推进基于代理的支付方案。同时,文章强调了人们对把购买权限交给AI代理的怀疑,因为这类系统有时会表现得不可预测。Visa回应称,其方法依赖用户控制、透明度、令牌化凭证、实时授权和欺诈监控,但外界仍担心传统支付体系未必能完全覆盖新的风险。

Visa表示,交易将被限制在支出上限、审批阈值、商家类别和令牌化凭证等护栏内,并配合实时授权和欺诈监控。文章还指出,OpenAI已经推出了基于其Agentic Commerce Protocol、并与Stripe合作的Instant Checkout,而Visa的公告并未确认会涉及OpenAI传闻中的未来超级应用。

查看单篇正文查看原文
15

TechCrunch AI

毕马威因争议性主张撤下 AI 报告

·#ai-hallucinations

毕马威因争议性主张撤下 AI 报告

毕马威撤下了题为《Redefining excellence in the age of agentic AI》的报告,因为多家机构表示,报告中关于他们 AI 使用情况的说法不准确或具有误导性。这份报告发布于 2025 年 10 月,之后还被 GPTZero 指出存在明显的 AI 幻觉问题。

这一事件是一个高关注度案例,说明如果没有经过人工严格核实,AI 生成内容可能会损害可信度。它也表明,企业采用 AI 不仅关乎效率提升,还关系到准确性、责任归属和声誉风险控制。

毕马威已经撤下了一份题为《Redefining excellence in the age of agentic AI》的报告,原因是多家机构质疑报告中关于它们如何使用人工智能的说法。该报告发布于 2025 年 10 月,之后被研究组织 GPTZero 注意到其中存在多处不准确之处。GPTZero 表示,这些错误看起来源于 AI 幻觉。也就是说,这家专业服务公司似乎使用了 AI 来帮助撰写一份本身讨论 AI 的报告。

UBS、英国国家医疗服务体系、瑞士联邦铁路以及伦敦交通局都告诉《金融时报》,报告中关于它们 AI 使用情况的说法要么不真实,要么具有误导性。面对这些质疑,毕马威发言人表示,公司已在调查期间将该报告从网站上移除。该发言人还强调,毕马威要求员工遵守负责任使用 AI 的指南,其中包括通过人工监督来验证内容并核查独立来源。这个事件发生前不久,安永也曾撤下过一份关于忠诚度奖励计划的报告,因为其中似乎包含伪造脚注和 AI 幻觉问题。

UBS、英国国家医疗服务体系、瑞士联邦铁路以及伦敦交通局都告诉《金融时报》,该报告对它们 AI 使用情况的表述不真实或具有误导性。毕马威发言人表示,公司已在调查期间移除该报告,并强调必须通过人工监督来验证内容和独立来源。

查看单篇正文查看原文
16

The Decoder

Count Anything 让看似简单的计数更进一步

·#computer-vision

Count Anything 让看似简单的计数更进一步

清华大学及其他机构的研究人员推出了“Count Anything”,这是一种基于提示词的视觉模型,可以在多种图像类型中对对象进行计数和标注,包括照片、卫星图像、医学扫描图像和显微镜图像。它基于 Meta 的 SAM3 构建,并把适合大目标的框计数与适合小而密集目标的点计数结合起来。

准确的对象计数在医疗、农业、交通分析和遥感等真实场景中都很重要,因为计数错误会影响决策。这个模型展示了更通用的计数系统的可能性,或许能减少为不同任务分别训练专用工具的需要。

这项新模型名为 Count Anything,目标是让用户只需输入文本提示,就能在图像中对对象进行计数,而这件看似简单的事对现代 AI 来说仍然很难。研究人员表示,它可以处理非常不同的视觉领域,包括日常照片、卫星图像、医学扫描、农业图像以及细菌培养照片。该模型建立在 Meta 的 SAM3 之上,并不是从头重训整个基础模型,而是在其上增加了较小的适配器组件。它采用了两种互补的计数方式:一种适合大而清晰的目标,会画出边界框;另一种适合小而密集的目标,会在每个检测到的对象上放置一个点。最后,系统会把两路输出合并,并通过保留置信度更高的预测来避免重复计数。

为了训练这个系统,团队构建了一个名为 CLOC 的自定义数据集,把多个公开计数数据集整合并清洗后得到。研究人员称,CLOC 目前是最大的文本引导计数数据集之一,包含约 22 万张图像、619 个类别和 1500 万个标注对象,覆盖六个领域。在论文测试中,Count Anything 的平均计数误差优于 CountGD、CLIP-Count 和 Grounding DINO 等竞争系统,但在最好的专用人群计数模型面前仍未完全胜出。研究人员也承认,这个模型在提示词含义模糊、术语过于专业,以及极度密集且遮挡严重的场景下仍会出错。项目代码已发布在 GitHub 上。

该系统会合并两路预测,并在两种检测器指向同一对象时保留置信度更高的结果,从而避免重复计数。它使用了名为 CLOC 的自建数据集训练,研究人员称该数据集包含约 22 万张图像、619 个类别和 1500 万个标注对象,覆盖六个领域。

查看单篇正文查看原文
17

The Verge AI

好莱坞的AI未来在于艺术家主导,而非通用提示词

·#generative-ai

好莱坞的AI未来在于艺术家主导,而非通用提示词

《The Verge》认为,在 2026 年翠贝卡电影节上最有前景的 AI 电影作品,并不是现成的文本生成视频工具产物,而是由艺术家主导的实验性项目。文章重点提到了 Google DeepMind 的《Dear Upstairs Neighbors》和 OpenAI 的《Mauvais Soleil》,它们展示了更可控、更多协作的 AI 制作方式。

这篇报道表明,好莱坞真正可用的 AI 未来,可能更依赖“人机协作”的混合流程,而不是完全自动化生成。它对制片厂、电影人和 AI 公司都很重要,因为当前的视频模型在一致性、完成度和叙事连贯性方面仍有明显不足。

《The Verge》认为,尽管围绕生成式 AI 的炒作已经持续多年,但它至今还没有真正产出那种观众愿意花钱观看的电影项目。文章指出,许多大型 AI 公司的视频模型仍然只能生成很短、而且视觉上不够一致的片段,一些备受关注的好莱坞 AI 合作项目也已经突然破裂。因此,作者认为,当下不少 AI 生成内容更像是短视频式的“垃圾内容”,而不是真正意义上的电影。相比之下,翠贝卡电影节为 AI 辅助电影制作提供了一个更有价值的观察窗口。那里展出的多个项目显示,人类艺术家可以以更克制、更有表现力的方式使用生成式工具。与此同时,也有作品直接暴露了这项技术的局限,例如 Illuminai Studios 的动画短片《Roar》看起来更像一连串令人眩晕的 AI 片段拼接,而不是连贯作品;Asteria Film Co. 的《ChikaBOOM!》则缺少支撑其奇幻题材所需的视觉与声音精致度。

另一些项目则展示了更成熟的工作流。由 Pixar 资深人士 Connie Qin He 编剧并执导、并与 Google DeepMind 研究人员合作完成的《Dear Upstairs Neighbors》,讲述了名叫 Ada 的疲惫女性因为楼上邻居深夜制造噪音而无法入睡的故事。为了塑造短片的绘画感风格,He 与制作设计师尹宗新合作,后者用 Photoshop 以及纸张和丙烯颜料绘制了概念图,这些图像奠定了影片的视觉基调。随后,DeepMind 为此开发了定制版的 Veo 和 Imagen,并以这些概念图作为训练和微调基础,让团队能够更精确地控制生成结果。文章指出,这些模型尤其擅长还原某些风格细节,比如物体相互作用时声音如何被视觉化呈现。不过,电影团队仍然需要借助更传统的方法,例如使用 Autodesk Maya 制作粗略动画,以确保叙事推进准确而连贯。

文章指出,大多数现有 AI 视频模型只能生成短而且视觉不一致的片段,这限制了它们作为成片娱乐内容的价值。在《Dear Upstairs Neighbors》中,Google DeepMind 基于 Pixar 资深人士尹宗新(Yingzong Xin)的概念艺术,定制了 Veo 和 Imagen 版本;同时团队还使用 Autodesk Maya 做粗略动画规划,以保持场景连贯。

查看单篇正文查看原文