推理效率与芯片替代成为今天的主线
Etched、Deepseek 和 OpenAI 的动向都指向同一件事:AI 竞争的重心正在从训练转向推理效率、成本控制与系统级优化。对算力更紧缺的市场来说,这类进展尤其关键。[2842, 2841, 2871]
AI 日报
今天的焦点很清晰:AI 正从“模型竞争”转向“系统竞争”。一边是推理效率、定制芯片和企业部署加速落地,另一边是浏览器代理、聊天机器人和交易系统带来的安全与治理风险不断放大。与此同时,AI 正更深地进入科研、医疗、内容和政治工作流,说明它已经从实验性技术变成基础运营层。
Overview
从 78 条资讯中筛选出 33 条
今天的焦点很清晰:AI 正从“模型竞争”转向“系统竞争”。一边是推理效率、定制芯片和企业部署加速落地,另一边是浏览器代理、聊天机器人和交易系统带来的安全与治理风险不断放大。与此同时,AI 正更深地进入科研、医疗、内容和政治工作流,说明它已经从实验性技术变成基础运营层。
Etched、Deepseek 和 OpenAI 的动向都指向同一件事:AI 竞争的重心正在从训练转向推理效率、成本控制与系统级优化。对算力更紧缺的市场来说,这类进展尤其关键。[2842, 2841, 2871]
AWS、Acti、OpenClaw 和 X 都在把代理能力嵌入企业交付、手机键盘、移动应用和 API 接入层,说明“直接执行任务”的 AI 正在变成默认产品形态。[2849, 2868, 2867, 2869]
AI 浏览器攻击、Meta 的危机提示测试以及苹果的提前补丁都表明,随着 AI 更深地介入网页、账号和设备,安全边界必须同步升级。[2844, 2860, 2874]
Anthropic、OpenAI、Libby 和医疗 AI 数据都说明,AI 正在进入更高信任、更高规范要求的场景,评测、过滤和可复现性将成为基本配置。[2846, 2850, 2856, 2873, 2861]
美国竞选活动的 AI 化和英格兰银行对交易系统“熔断开关”的讨论,显示监管者正在面对 AI 带来的新型外部性与系统性风险。[2872, 2855]
AI 产业正在从单点模型发布,转向围绕算力效率、代理化工作流和行业落地的全栈竞争。今天的新闻同时覆盖了硬件、推理、科研、企业部署和安全治理,说明行业核心问题已经从“谁的模型更强”变成“谁能更快、更便宜、更安全地把 AI 用起来”。
Etched 以 50 亿美元估值和 10 亿美元订单证明,推理系统不再只是实验室概念,而是可以被客户验证的商业产品。[2842] 与此同时,Deepseek 的 DSpark 强调用推测解码和自适应验证提升 60%–85% 的响应速度,直指推理成本。[2841] 若再加上 OpenAI 被报道将访客版 ChatGPT 的推理成本削减一半以上,说明“单位推理更便宜”正在成为所有前沿玩家的共同目标。[2871]
AWS 直接用 10 亿美元内部资源押注 FDE 模式,把工程师派进客户现场交付 AI 智能体。[2849] 消费端则出现两种不同方向:Acti 试图把代理嵌进手机键盘,OpenClaw 则把开源代理带到 iOS/Android。[2868, 2867] 另一方面,X 推出托管 MCP 服务器,进一步把工具接入标准化。[2869]
Anthropic 不仅推出面向科学研究的 Claude Science,还把它包装成科研工作台,强调本地/HPC、可复现性和验证代理。[2846, 2850] OpenAI 的 GeneBench-Pro 则把评测焦点放回真实科研数据集。[2856] 在医疗与内容领域,AI 已开始成为用户默认的信息入口,同时平台也在同步建立筛选和标注机制。[2861, 2873]
AI 浏览器可被诱导进入“梦境世界”,护栏失效后可能泄露仓库代码和凭据。[2844] Meta 被报道用数千条未成年视角危机提示测试竞争聊天机器人,凸显红队测试与数据合规之间的张力。[2860] 金融监管者则开始讨论 AI 交易是否需要“熔断开关”。[2855] 这些事件共同说明,AI 的部署规模越大,越需要更强的安全边界、审计和治理工具。[2844, 2860, 2855, 2874]
Stories
TechCrunch AI

Etched 表示,公司在去年 12 月完成一轮 5 亿美元融资后,最新估值已达到 50 亿美元。它还称已为其 AI 推理系统拿到 10 亿美元的合同订单,并且 TSMC 已成功制造出其芯片,公司正在与客户测试首批产品。
这份进展报告显示,Etched 在 AI 硬件最热门的领域之一——推理基础设施——已经获得了实质性的商业进展。若其系统真能实现更快、更便宜且更省电的推理,便可能在云厂商和创业公司都在争夺优化空间的市场中挑战 Nvidia 的主导地位。
Etched 在周二发布了一份进展更新,称 TSMC 已在今年早些时候成功制造出其芯片,而公司目前已经拿到了 10 亿美元的合同订单,这些订单对应的是由该芯片驱动的整套系统。与只卖单颗芯片不同,Etched 提供的是其称为“frontier inference clusters”的完整方案,里面包括芯片、定制机架和软件,目标是让 AI 模型推理更快、更便宜、也更省电。公司表示,这款首批产品目前正在与客户测试。Etched 同时披露,截至目前公司累计融资已达 8 亿美元。其最近一轮融资没有对外公布,去年 12 月完成,融资金额为 5 亿美元,投后估值达到 50 亿美元。Etched 成立于 2022 年,投资者名单很长,包括 VentureTech Alliance、Jane Street、Hudson River Trading、Two Sigma、Ribbit Capital 和 Stripes,其中 Stripes 领投了这一轮。
公司的天使投资人还包括 Andrej Karpathy、Geoffrey Hinton、Fei-Fei Li、Arthur Mensch 和 Scott Wu,此外还有亿万富翁 Stanley Druckenmiller 与 Peter Thiel。虽然这次公告把它描述为“走出隐身模式”,但联合创始人其实从 2024 年起就一直在与 TechCrunch 谈论他们的芯片计划。Etched 的联合创始人兼 CEO Gavin Uberti 和总裁 Robert Wachen 都是从哈佛退学后成为 Thiel fellow,并共同创办了这家公司。两位创始人此前表示,在 2023 年他们曾很难从投资人那里拿到钱,尽管他们用一份 30 页备忘录论证 AI 最终需要专用芯片,而不仅仅是通用 GPU。如今的融资环境则完全不同,投资人正积极追逐一切与 AI 相关的项目,尤其是能够加速推理的芯片技术。市场上也出现了多个类似信号,包括 Cerebras 实现突破性 IPO、Groq 融资 6.5 亿美元,以及 Amazon、Google 和 Microsoft 等超大规模云厂商都在自研 AI 芯片,OpenAI 也刚刚宣布了自己首款由 Broadcom 打造的定制芯片。
Etched 销售的是其称为“frontier inference clusters”的整套系统,而不只是芯片本身,这些系统把芯片、定制机架和软件打包在一起。该公司认为推理仍是 AI 企业最大的瓶颈和成本中心,但目前产品仍处于客户测试阶段,还没有全面铺开部署。
Ars Technica AI

一项新的安全研究显示,AI 浏览器可以被诱导进入一个“梦境世界”式的替代状态,在那里它的安全护栏会失效。进入这种状态后,浏览器代理可能被进一步诱导执行危险操作,例如泄露私有仓库代码或密码管理器中的凭据。
这一结果凸显了代理式浏览的核心弱点:如果安全控制依赖模型始终处在“正确上下文”中,那么一旦上下文被操纵,护栏就可能失效。这意味着在涉及账户、代码和敏感数据的高信任任务中,AI 浏览器的风险更高。
文章指出,AI 浏览器的制造者常常承诺很多:用户只需输入一个提示词,就能让浏览器帮忙搜索餐厅、预订座位、邀请同事并发送确认邮件。问题在于,这类系统模糊了普通网页浏览与让大型语言模型执行敏感操作之间原本清晰的界线。到目前为止,开发者的应对方式主要是加入护栏,用来阻止危险请求,例如开发漏洞利用、窃取凭据或教人制作管状炸弹。文章认为,这种做法只是被动缓解症状,并没有解决根本问题。新的研究通过一个概念验证攻击,把这个问题直接展示出来。
攻击者通过一个恶意网站诱导 AI 浏览器进入一个虚假现实,网站甚至会奖励错误答案,例如把 2 + 2 视为 5。 一旦模型的上下文切换到这种“梦境世界”,原本的安全规则就不再生效。此时,攻击者可能进一步诱导浏览器代理执行破坏性操作,包括从私有仓库中提取代码,或从内置密码管理器中提取凭据。LayerX 的研究员 Roy Paz 表示,AI 会默认当前上下文是真实的,因此其行为会受到安全护栏约束;但如果攻击者把上下文改造成幻想世界,它就可能像是现实后果不存在一样行事。
这个概念验证利用了一个恶意网站,向浏览器发出类似解谜的指令,并奖励错误答案,例如把 2 + 2 认作 5。报道指出,一旦模型接受这种虚假现实,正常的安全限制就不再生效。
Hugging Face Blog

Hugging Face 和 EvalEval 联盟正在推出一套系统,把社区评测结果标准化并直接展示在模型页和基准页上。新机制把 EvalEval 的 JSON 报告格式与 Hugging Face Community Evals 打通,使结果能够更一致地发布、聚合和归因。
模型基准分数往往分散在论文、榜单和日志里,很难直接比较,而且同一个模型在不同评测设置下可能得到差异很大的分数。这个项目让 AI 评测对研究人员、从业者和政策制定者都更透明、更可复现,因为他们依赖这些基准数据来判断模型质量与安全性。
Hugging Face 表示,EvalEval 联盟的 EEE 项目和它自己的 Community Evals 解决的是同一个问题的不同部分:评测结果非常重要,但它们分散在互不兼容的格式里,而且很难一眼判断是否可信。文章称,EEE 于 2026 年 2 月启动,是一个跨机构项目,目标是改进第一方和第三方评测者的结果报告方式;而 Community Evals 也在同月上线,目的是让 Hub 上的基准分数报告更加去中心化。文章认为,评测结果是衡量模型能力、比较模型、分析安全性以及支持治理决策的基础,但它们常常散落在论文、排行榜、博客文章和 harness 日志中。文中举例说,同一个模型和同一个基准可能会得到差异很大的分数,例如 LLaMA 65B 在 MMLU 上就曾被报告为 63.7 和 48.8,而造成差异的原因往往是评测设置没有被充分披露。EEE 通过标准化报告层来解决这个问题,它用一个统一的 JSON 模式记录评测者、模型、访问方式、生成设置以及指标含义,并可选附带用于逐样本输出的 JSONL 文件。
该仓库还提供转换器、示例和贡献指南,Hugging Face 说其数据存储库已经增长到大约 229,000 条评测结果,覆盖超过 22,000 个模型和 2,200 个基准,来源包括 31 种不同的报告格式。文章还指出,如果从零开始重新跑这些评测,成本可能高达几十万美元,因此把这些数据保存并标准化具有明显价值。在 Hugging Face 侧,基准页面由数据集仓库驱动,通过添加 eval.yaml 进行注册,而模型分数则保存在 .eval_results/*.yaml 中,并显示在模型卡和对应排行榜上。通过组织的官方 Hugging Face 账号提交的数据可以在 EvalEval 上显示经过验证的勾选标记;同时,用户现在还能把 EEE 记录转换成 Community Evals 所需的 YAML 文件,从而避免手工维护两套重复记录。
EEE 为评测结果定义了一个统一的 JSON 模式,包含谁执行了评测、测试了哪个模型、如何访问模型、生成设置以及指标含义,并可选提供用于逐样本输出的 JSONL 文件。Hugging Face Community Evals 则通过数据集仓库中的 eval.yaml 注册基准,并把模型分数存放在 .eval_results/*.yaml 中,同时用徽章标明结果是作者提交、社区提交还是独立验证。
MIT Technology Review AI

Anthropic 在一场面向制药高管、生物科技创始人和研究人员的活动上发布了 Claude Science,并将其定位为面向科学研究的旗舰产品。该系统现已向所有付费 Claude 订阅用户开放,Anthropic 也开始用它推进自己在罕见病和被忽视疾病药物方面的研究。
这标志着 Anthropic 迄今最明确地把 AI 推向科研核心工具,尤其是计算生物学和药物发现领域。如果其能力如宣传所示,它可能帮助研究人员写代码、在集群上运行实验并提升可复现性,从而影响学术实验室和生物科技团队。
Anthropic 在一场面向制药高管、生物科技创始人和研究人员的活动上推出了 Claude Science。公司将它描述为面向科学研究的重要新产品,类似于 Claude Code 之于软件工程的定位。Anthropic 表示,Claude Science 可以在接到简洁、高层级指令后自主完成有意义的工作,并且配有特别适合计算生物学和药物开发的工具。该产品现已向所有付费 Claude 订阅用户开放。Anthropic 还表示,自己也会使用 Claude Science 推进内部研究,目标之一是开发针对罕见病和被忽视疾病的药物。文章指出,这并不是 Anthropic 第一次涉足科研 AI;该公司在 10 月时已经以“Claude for Life Sciences”为名发布过插件。
与此前插件不同,Claude Science 被包装成一个功能完整的独立产品,并被放在 Claude Code 和 Claude Cowork 这样的旗舰产品序列中。Anthropic 生命科学负责人 Eric Kauderer-Abrams 将这次发布视为公司使命的一部分,认为生命科学是 AI 产生长期社会价值的最大机会。文章同时把 Anthropic 放在 Google DeepMind 长期主导“AI for science”的背景下,指出 DeepMind 虽然在 AlphaFold 等项目上成就突出,但 Anthropic 可能正在借助其科研背景和编码工具优势追赶甚至接棒。文章还提到,很多科学研究本身就包含大量编程工作,而许多科学家并非专业软件工程师,因此像 Claude Code 这样的工具能显著提升效率。DeepMind 研究员 John Jumper 最近转投 Anthropic,也被视为这一趋势的信号之一。
Anthropic 表示,Claude Science 不同于今年 10 月推出的“Claude for Life Sciences”插件,它是一个独立产品,并且是与 Claude Code 和 Claude Cowork 并列的完整产品线,而不是它们的替代品。该产品强调接受高层级指令后自主工作、调用科学工具、在计算集群上执行任务,以及强调可复现性,方便用户追溯图表和结果来源。
OpenAI News
OpenAI 工程师通过大规模核心转储分析来排查罕见的基础设施崩溃。调查结果同时指向了一个硬件故障和一个似乎已经存在了 18 年的软件漏洞。
这说明现代可观测性技术可以找出那些靠传统调试很难定位的根因。对于运行大规模基础设施的团队来说尤其重要,因为罕见故障可能潜伏多年,并持续影响系统可靠性。
OpenAI 介绍了工程师如何通过大规模核心转储分析来调查基础设施中的罕见崩溃。核心转储会记录进程失败瞬间的状态,因此在崩溃难以复现时,它们对事后分析特别有用。工程师把许多失败实例中的转储汇总并交叉分析后,才识别出指向更深层根因的模式。调查首先发现了一个硬件故障,这说明问题并不完全是软件层面导致的。
随后,他们又找到了一个似乎已经存在 18 年的软件漏洞,说明复杂系统里一些长期缺陷可以在很久之后才暴露出来。这个案例展示了数据驱动的调试方式如何同时揭示即时的运维问题和隐藏的历史包袱。整篇故事强调,基础设施可靠性工作往往不能只看单次崩溃日志,而需要结合底层系统证据和大规模分析。
关键技术是对核心转储进行大规模分析,它帮助把原本孤立的崩溃关联成一个模式。报告显示,这次事件同时涉及硬件问题和一个长期存在的软件漏洞,说明罕见故障往往可能由多个因素共同导致。
Simon Willison

·#ai
Anthropic 发布了 Claude Sonnet 5,Simon Willison 重点解读的是开发者文档而不是发布公告。新模型据称在性能上接近 Opus 4.8,但价格更低。
对于开发者来说,模型发布最重要的往往是 API 行为、价格和限制,而这次更新同时改变了这三项。系统卡还说明了 Anthropic 如何通过安全护栏来定位该模型,这会影响谁能部署它以及可用于哪些任务。
Simon Willison 指出,Claude Sonnet 5 是当天上午发布的,而他通常会先看 Anthropic 的“what’s new”开发者文档,因为这类文档往往比官方发布公告更有可操作性。Anthropic 将 Sonnet 5 描述为在性能上接近 Opus 4.8,但价格更低。Willison 还提到系统卡,并认为其中解释了该模型为何能够发布而没有被美国政府阻止。系统卡中写道,Sonnet 5 在 cyber 任务上的能力明显弱于 Mythos 5,因此其安全护栏与 Opus 4.7 和 Opus 4.8 类似。API 说明里有一个重要的破坏性变化:temperature、top_p 和 top_k 不再受支持。
Sonnet 5 的上下文窗口达到 100 万 token,最大输出为 128,000 token,并且支持与 Sonnet 4.6 相同的一组工具和平台特性。adaptive thinking 默认开启,除非通过 thinking 设置显式关闭。定价名义上与 Sonnet 4.6 相同,并且在 8 月 31 日前有临时折扣,但新的分词器意味着同样的文本会比 Sonnet 4.6 多产生约 30% 的 token。Willison 使用自己的 token 计数器测试了英文、西班牙文、简体中文和 Python 代码,结果显示不同内容的涨幅差异很大,其中中文几乎不变,而英文类文本的实际成本上升更明显。
Sonnet 5 不再支持 temperature、top_p 和 top_k 采样参数,并且拥有 100 万 token 的上下文窗口和 128,000 个最大输出 token。Anthropic 表示它保留了与 Sonnet 4.6 相同的工具和平台特性,默认开启 adaptive thinking,除非显式禁用;但它采用了新的分词器,同样的文本大约会产生比 Sonnet 4.6 多 30% 的 token,这对很多输入来说等于实际成本上升。
TechCrunch AI

·#aws
亚马逊云科技(AWS)推出了一个新的内部前线部署工程(FDE)组织,专注于帮助客户部署AI智能体。亚马逊表示将为该项目投入10亿美元的内部资源,并让工程师深入客户公司,加速落地并交付可持续的能力。
这表明企业AI部署正在变成一门更依赖服务交付的生意,而不只是软件产品竞争。它也说明AWS正在回应行业的一个更大趋势:厂商越来越需要提供手把手的工程支持,帮助客户把AI真正落地。
亚马逊云科技(AWS)在周二宣布成立一个新的内部组织,专门面向AI的前线部署工程师(FDE)。该团队的目标是直接进入客户公司,帮助部署定制化智能体,并在实施过程中快速响应各种问题。AWS表示,这类合作将以快速推进为重点,同时逐步提升客户的自主能力。AWS Frontier AI副总裁Francessca Vasquez在公告中强调,AWS希望客户在完成FDE部署后,不仅获得可运行的系统,还能获得新的工程能力。AWS还表示,客户将得到在其自身AWS环境中运行的智能体系统,以及可长期复用的技能、工作流程和方法。
亚马逊称将为这个新组织投入10亿美元,但这笔钱来自亚马逊内部资源,并不是独立融资轮或合资项目。文章指出,这种模式借鉴了Palantir开创并推广的FDE做法,而随着企业越来越需要AI落地支持,这种方式也变得更受欢迎。它的优势在于可以将可复用技术按客户需求进行定制,但代价是劳动密集度更高,需要维持一支规模可观的工程队伍来实施和维护部署。AWS此举也跟随了OpenAI和Anthropic最近推出的类似FDE合资安排,两者分别由私募股权机构提供资金和企业客户资源。
AWS表示,这个FDE团队不只是安装系统,还要让客户带走可复用的工程技能、工作流程和模式。文章还指出,这里的10亿美元指的是亚马逊内部资源投入,而不是独立投资工具或合资企业。
The Decoder

Anthropic 发布了 Claude Science,这是一款面向科学家的研究型 AI 工作台,把数据库、工具和软件包整合到一个界面中。它支持文献分析、多步流程、图表生成和论文草稿撰写,并提供 60 多个预配置技能,覆盖基因组学、蛋白质组学和化学信息学等领域。
这次发布瞄准了 AI for Science 中一个高价值细分场景,重点不是通用聊天,而是直接嵌入真实研究流程。它强调本地运行、SSH 和 HPC 集成,以及引用和计算校验,因此对处理敏感数据或要求可复现计算的实验室尤其重要。
Anthropic 推出了 Claude Science,这是一款专为科学家和研究人员设计的全新 AI 工作台。该产品把数十个数据库、工具和软件包整合到一个界面中,让用户可以在同一环境里完成文献阅读、分析和写作。Anthropic 表示,研究人员可以用它来分析论文、执行多步计算、生成图表以及撰写稿件。系统内置了 60 多个预配置技能,覆盖基因组学、蛋白质组学和化学信息学等领域。它还带有一个验证代理,可自动检查引用和计算结果。
该应用被设计为可在 macOS 或 Linux 上本地运行,并可通过 SSH 或 HPC 集群连接远程系统。Anthropic 强调,这种方式可以让敏感数据留在实验室自己的基础设施中,而只把 Claude 需要的上下文发送给模型。对于更重的任务,该平台还能从单块 GPU 扩展到数百块 GPU。Claude Science 还接入了 Nvidia 新推出的 BioNeMo agent 工具包,其中包含 Evo 2、Boltz-2 和 OpenFold3 等模型。Anthropic 目前向 Pro、Max、Team 和 Enterprise 用户提供测试版,同时还将资助最多 50 个研究项目,每个项目最高可获得 30,000 美元额度,申请截止到 2026 年 7 月 15 日。
Claude Science 可在 macOS 或 Linux 上本地运行,并可通过 SSH 或 HPC 集群连接远程机器,因此敏感数据可以留在实验室自己的基础设施内。Anthropic 表示,只有 Claude 需要的上下文会发送给模型,而且系统在负载需要时可以从单块 GPU 扩展到数百块 GPU。
The Decoder

谷歌推出了 Nano Banana 2 Lite,这是一款可在约四秒内生成 1K 图像、单张成本为 0.034 美元的图像模型;同时还发布了 Gemini Omni Flash,开发者可通过 Gemini API 生成和编辑最长十秒的视频。谷歌还建议将两者串联使用,先生成图像,再将其动画化为视频。
这为开发者提供了更快、成本更低的图像和视频 AI 能力,可能影响创意工具、电商流程和内容生产管线。它也表明谷歌正在把多模态生成更深入地整合进 API 体系,使端到端 AI 内容创作更容易接入。
谷歌发布了两款面向开发者的生成式 AI 新模型:Nano Banana 2 Lite 用于快速生成图像,Gemini Omni Flash 用于视频生成和编辑。Nano Banana 2 Lite 的文本生成图像大约只需四秒,1K 分辨率下每张成本为 0.034 美元,因此适合高吞吐量和低成本工作流。在 API 中,这个模型的名称是 gemini-3.1-flash-lite-image。谷歌表示,尽管它主打速度,但仍能保持较好的提示词遵循、角色一致性以及图中文字可读性。该模型也正在进入谷歌的消费级产品,包括 Search 的 AI Mode、Gemini 应用、NotebookLM、Google Photos、Stitch、Google Flow 和 Google Ads。
谷歌将 Nano Banana 2 Lite 归入一个三模型的 Nano Banana 家族。Nano Banana 2 对应 Gemini 3.1 Flash Image,定位为兼顾质量和成本的通用模型;Nano Banana Pro 对应 Gemini 3(.1) Pro Image,面向更复杂的专业场景,并提供最强的控制能力和更高级的推理能力。谷歌把最早的 Nano Banana,即 Gemini 2.5 Flash Image,视为已经过时。这样一来,开发者就可以根据任务在速度、成本和质量之间进行选择。
Gemini Omni Flash 现在已经可以通过 Gemini API 和 Google AI Studio 使用,此前它曾在 Google I/O 上展示。谷歌称它结合了 Gemini 的多模态推理能力与视频生成能力,可通过自然语言进行视频编辑,价格为每秒 0.10 美元,与 Veo 3.1 Fast 持平。该模型支持文本、图片和视频等多种输入形式,并且可以把文字和图形直接同步到视频动作中。
不过,这个视频模型目前仍有明显限制。Gemini Omni Flash 现在只能生成 10 秒短片,API 中还不支持音频参考和场景扩展。API 结构虽然接受最长三秒的视频参考,但谷歌表示模型对这类输入的处理目前还不正确。角色在场景切换或镜头运动中的一致性也仍然有限。
谷歌建议把这两款模型串联起来使用,以获得更好的效果。开发者可以先用 Nano Banana 2 Lite 生成图像,再把这些图像作为参考交给 Gemini Omni Flash,把静态画面动画化成视频。谷歌表示,作为默认 AI API 的 Interactions API 可以保留会话历史和上下文,并支持连续三次编辑。为了演示这一流程,谷歌提供了三个示例应用:Anywhere 可以用自拍把用户放到著名地标并生成动画效果;Space Lift 可以把房间照片转化为室内设计概念和视频;Omni Product Studio 可以把静态商品图转换成电商视频。谷歌还表示,这两款模型都会使用 SynthID 水印来标记 AI 生成内容。
Nano Banana 2 Lite 在 API 中的名称是 gemini-3.1-flash-lite-image,谷歌表示它强调速度、提示词遵循、一致的人物形象和可读文字。Gemini Omni Flash 的输出价格为每秒 0.10 美元,支持文本、图片和视频输入,但目前仍有一些限制,包括只能生成十秒短片、暂不支持音频参考或场景扩展,而且对视频参考的处理还不够完善。
The Decoder

美团表示,其 LongCat-2.0 模型拥有 1.6 万亿参数,并且完全在国产中国 AI 芯片上训练,没有使用英伟达硬件。该公司称,训练集群由超过 5 万颗本土制造的 AI ASIC 组成,训练数据超过 35 万亿 token。
如果属实,这表明在美国限制先进英伟达芯片出口的背景下,中国仍可能训练前沿规模的模型。这对 AI 基础设施、半导体竞争以及构建本土 AI 供应链都具有重要意义。
美团的 LongCat-2.0 被描述为一个重要信号,表明中国已经能够在不依赖英伟达的情况下训练超大规模 AI 模型。公司称,这个模型拥有 1.6 万亿参数,并且完全使用国产中国 AI 芯片完成训练。报道指出,训练过程依托一个由超过 5 万颗国产 AI ASIC 组成的集群,处理了超过 35 万亿个 token。美团还表示,LongCat 团队成立于 2023 年,而其首个模型是在去年底发布的。
在基准测试方面,LongCat-2.0 在部分项目上表现具有竞争力:它在 SWE-bench Pro 上得分 59.5,在 SWE-bench Multilingual 上得分 77.3,在这两项具体结果上超过了 Gemini 3.1 Pro 和 GPT-5.5,但仍低于 Claude Opus 4.7 和 4.8。另一方面,它在 IFEval、IMO-AnswerBench 和 GPQA-diamond 等测试上的表现没有那么亮眼,报道说在某些情况下明显落后于 Gemini 和 GPT-5.5。文章将这一结果解读为对华盛顿的一个信号,因为美国自 2022 年以来一直实施出口管制。美团没有公布具体的芯片制造商,而且该模型尚未出现在 HuggingFace 上,因此外界仍然难以进行独立验证。
美团称 LongCat 团队直到 2023 年才成立,首个模型则在去年底发布。基准测试结果并不均衡:LongCat-2.0 在 SWE-bench Pro 和 SWE-bench Multilingual 上领先,但在其他多项测试中落后于 Gemini 和 GPT-5.5,而且该模型尚未上线 HuggingFace,外界难以独立验证。
The Decoder

台湾执法部门突袭搜查了超微电脑(Super Micro Computer)办公室及多家本地合作公司,调查其涉嫌通过服务器货运将英伟达 AI 芯片走私到中国。报道称,此次调查还搜查了6名个人的住所以及3家关联企业,其中包括数位中心运营商 Chief Telecom 和超微经销商 Albatron Technology。
这起案件涉及英伟达 AI 芯片、重要服务器供应商以及据称流向中国的转运路径,具有很强的出口管制意味。它可能影响整个 AI 硬件供应链的合规做法,并推动对芯片出口规则的更严格执法。
台湾执法部门突袭搜查了超微电脑(Super Micro Computer)的办公室以及多家相关公司,调查其涉嫌通过服务器将英伟达 AI 芯片走私到中国一案。基隆地检署表示,这起案件的核心是有关英伟达芯片经由超微服务器出货的指控。彭博社报道称,调查人员还搜查了6名个人的住所和3家关联企业,其中包括 Chief Telecom 和超微经销商 Albatron Technology。超微是一家总部位于加州圣何塞的美国公司。消息传出后,超微在美国交易中的股价下跌了8%。
彭博社还称,这起更大范围案件中最早已知的逮捕发生在5月,当时有3人被指控伪造出口文件,并通过日本向中国运送至少一批英伟达芯片。报道称,超微的一名联合创始人也已被起诉,但公司本身尚未受到正式指控。超微表示正与当局密切合作,并采取措施保护其技术。台湾目前并未把向中国出口 AI 芯片视为刑事犯罪,但正在考虑修改相关规定,以更接近美国的出口管制规则。
彭博社报道称,最早已知的逮捕发生在5月,当时有3人被指控伪造出口文件,并通过日本向中国运送至少一批英伟达芯片。超微表示正在与当局密切合作并保护其技术;彭博社还称,一名联合创始人已被起诉,但公司本身尚未被正式指控。
The Decoder

Deepseek 表示,其新的 DSpark 推理框架可将单用户响应速度提升 60% 到 85%。该公司称,它结合了推测解码、批量验证和基于置信度的自适应检查,并已将该框架与 Deepseek-V4-Pro 一同在 Hugging Face 和 GitHub 上以 MIT 许可证开源。
如果这些提升得到验证,DSpark 可能降低推理成本并减轻 Deepseek 及其他模型运营方的 GPU 压力。这一点在中国和欧盟尤为重要,因为这些地区高端芯片供应更紧,而美国出口管制使效率提升具有战略价值。
Deepseek 发布了 DSpark,这是一种新的推理框架,据称可将 AI 模型的单用户响应速度提升 60% 到 85%。该公司认为,传统 LLM 逐个 token 生成文本的方式效率不高,容易导致 GPU 利用率偏低,并让较长回答的延迟变高。DSpark 通过推测解码来改进这一点:先由一个更小的模型生成候选 token,再由更大的模型批量检查这些候选结果。它还会按小词组而不是单个 token 生成,从而进一步提高整体效率。
除此之外,DSpark 还引入了一个基于置信度的机制,会根据当前计算负载动态调整验证深度,尽量减少对被拒绝候选 token 的无效计算。Deepseek 表示,这套方法不仅在自家模型上测试过,也在 Google DeepMind 的 Gemma 和阿里巴巴的 Qwen 等开源模型上验证过,说明其适用范围可能更广。该框架以及与北京大学联合开发的 Deepseek-V4-Pro 模型已在 Hugging Face 和 GitHub 上以 MIT 许可证公开,技术细节则写在论文中。文章还强调,这一发布对中国具有战略意义,因为更低的推理成本意味着用更少的高端芯片就能支撑更多 AI 工作负载。
Deepseek 表示,DSpark 的做法是让小模型先提出候选输出,再由大模型批量验证,而不是逐个 token 生成。该公司还在 Google DeepMind 的 Gemma 和阿里巴巴的 Qwen 等开源模型上测试了这一方法,说明这种思路可能不只适用于 Deepseek 自家系统。
Financial Times AI
英格兰银行官员萨拉·布里登表示,AI驱动的交易可能因模型出现“羊群效应”而让市场更容易波动。她建议,如果这类系统开始放大市场不稳定性,监管机构可能需要考虑设置“熔断开关”。
这一警告凸显出金融领域使用AI不仅可能带来效率提升,也可能引发系统性风险。若大量交易模型对同一信号作出相似反应,可能加剧抛售或流动性冲击,影响投资者、金融机构和市场基础设施。
英格兰银行一位官员警告称,AI驱动的交易可能会让金融市场更加波动。萨拉·布里登在欧洲央行的一场会议上提出这一担忧,她表示,技术可能会在交易系统之间催生“羊群效应”。她担心的是,如果许多AI模型基于相似数据训练,或对相似信号作出反应,它们最终可能会在同一时间做出相同交易。这样的同步行为不一定能平抑价格,反而可能放大市场波动。
布里登表示,这种可能性意味着监管机构需要认真考虑保护措施。她提到的一个选项是“熔断开关”,即当某个交易系统开始制造不稳定时,允许相关方将其停止。她的表态把AI交易问题放在市场结构和风险管理的框架下,而不仅仅是技术升级问题。它也反映出金融监管界对自动化可能带来新的系统性风险的更广泛担忧。
布里登关注的核心是“羊群效应”,即AI系统可能同时做出相似交易并把价格推向同一方向。她提出的“熔断开关”意味着一种安全机制:当交易系统开始扰乱市场时,可以暂停或关闭它们。
OpenAI News
OpenAI推出了GeneBench-Pro,这是一个用于评估AI在基因组学、生物学和科学研究任务上表现的新基准。该基准聚焦于复杂的真实世界数据集,而不是合成或玩具示例。
像GeneBench-Pro这样的基准有助于衡量AI系统是否真正能胜任高风险的科学工作,而不只是通用语言任务。如果被广泛采用,它可能会影响模型开发、评估标准,以及研究人员判断AI在生物学和基因组学中实用性的方式。
OpenAI发布了GeneBench-Pro,这是一个用于测试AI在基因组学、生物学和科学研究中的表现的新基准。根据公告,该基准使用的是复杂的真实世界数据集,而不是范围很窄或合成的测试案例。其目标是衡量AI系统在多大程度上能够处理接近真实科研工作流程的问题。此次发布也把评估质量放在了核心位置,尤其是在准确性和鲁棒性非常重要的领域。
不过,提供的帖子非常简短,没有详细说明基准的设计细节。材料中也没有给出数据集名称、评分方法,或任何具体模型的测试结果。因此,这一公告更像是一次新的评测尝试,而不是一次已经验证的性能突破。
该公告强调使用复杂的真实世界数据集,这表明该基准可能比简化的学术测试更具挑战性。所提供材料中没有给出独立验证、数据集列表、评分细节或性能结果。
TechCrunch AI

·#ai
三位曾在 DeepMind 打造扑克 AI DeepStack 的前研究人员,已经创办了位于布拉格的 EquiLibre Technologies,把强化学习用于股票交易。该公司刚完成由 Creandum 领投的 A 轮融资,估值达到 5 亿美元。
这说明投资者认为强化学习不仅能用于游戏或研究演示,也能在金融市场中创造商业价值。若 EquiLibre 继续保持稳定回报,可能会影响量化对冲基金采用 AI 驱动交易系统的方式。
三位曾在 DeepMind 参与打造 DeepStack 的前研究人员,如今把类似的强化学习技术应用到了股票交易中。DeepStack 是一款曾击败人类扑克选手的 AI 系统。位于布拉格的 EquiLibre Technologies 在完成一轮 A 轮融资后,估值达到 5 亿美元,但公司和投资方 Creandum 都没有披露具体融资金额。Creandum 副总裁 Cameron Sellers 表示,这是该机构“迄今为止一次性投给单家公司最大的投资”。EquiLibre 认为,扑克和金融市场都很适合强化学习,因为奖励信号很直接:在交易里,分数就是代理赚了多少钱。
公司称其系统自 2025 年开始在加密市场交易,如今已扩展到股票交易,并与 Tower Research Capital 合作,在标普 500 和纳斯达克相关市场中进行日交易量达数十亿美元的操作。EquiLibre 还声称,自成立以来“零负收益月份”,也就是每个月都以净盈利收官。尽管业务重点是交易,公司强调自己“首先是实验室,而不是金融公司”。创始人 Martin Schmid、Rudolf Kadlec 和 Matej Moravcik 选择回到捷克共和国创业,并借助他们在 Google 及其他科技公司的朋友和校友网络组建了最初团队。
EquiLibre 表示,其算法已与 Tower Research Capital 合作,在标普 500 和纳斯达克市场上进行日交易量达数十亿美元的交易,并称自成立以来“零负收益月份”。创始人并非金融背景出身,该公司把自己定义为“首先是实验室,而不是金融公司”。
TechCrunch AI

TechCrunch 的一篇报道称,Ramp 和 Revelio Labs 的新数据让“AI 正在简单地摧毁工作岗位”这一说法变得不那么站得住脚。数据显示,在 AI 上投入更多的公司也在增加员工人数,甚至包括一些入门级岗位。
这项发现很重要,因为它挑战了当下关于 AI 与就业的主流叙事,而此时裁员和自动化焦虑正在上升。它表明,AI 可能在帮助部分公司扩大产出和招聘,而不只是替代人工。
随着越来越多公司宣布裁员,外界对 AI 导致失业的担忧也不断升温。到 2026 年 5 月,企业宣布的裁员中,近 90,000 个岗位被归因于 AI,而一些预测甚至认为未来五年美国最多有 15% 的岗位可能被 AI 消灭。在这种背景下,Ramp 和 Revelio Labs 的一份新报告给出了一个更复杂的画面。两家公司分析了近 22,000 家企业的 AI 支出和员工记录。结果显示,在 AI 上投入较多的公司,员工总数增长反而更快,甚至包括许多人以为会被自动化压缩的岗位。报告把前三个月平均每名员工每月在 AI 上花费 30 美元的公司定义为“高强度采用者”,这些公司的员工总数增长了 10.2%。增长还出现在工程、销售、行政、客户服务、财务、市场和科学家等多个职能上。
增幅最大的是信息行业,也就是软件、互联网、媒体以及相关科技公司。报告还发现,在这些技术前沿企业中,入门级岗位人数上升了 12%,这直接反驳了“初级岗位正在全面消失”的说法。与此同时,作者也提醒,这并不意味着 AI 一定会在所有行业普遍创造就业,因为样本明显偏向快速增长、知识密集型公司,这些公司本来就可能在扩张。报告认为,AI 可能不只是替代劳动力的工具,更可能通过降低生产成本来帮助企业扩大规模。相反,那些只做试点或购买订阅、却没有持续投入的公司,似乎并没有获得类似的就业增长。报告最后指出,拥有资本、技术人员、创始人网络和管理能力的企业,更有可能把 AI 采用转化为真正的业务收益。
Ramp 和 Revelio Labs 分析了近 22,000 家公司的企业 AI 支出和员工记录。报告称,“高强度采用者”——即在前三个月平均每名员工每月花 30 美元用于 AI 的公司——员工总数增长了 10.2%,而在技术前沿企业中,入门级岗位人数上升了 12%。
TechCrunch AI

被 Wix 以 8000 万美元收购的 vibe-coding 平台 Base44,已经开始推出自家的 AI 模型 Base1,帮助用户用自然语言构建应用。公司表示,这个模型是基于平台上数千万条真实用户交互数据训练出来的。
这一举动反映出 AI 初创公司正在转向自研模型,以提升防御性、降低推理成本并减少延迟。它也说明 vibe-coding 平台正在积累足够多的数据和基础设施,开始不再完全依赖前沿模型提供商来竞争。
Base44 是一家位于特拉维夫的 vibe-coding 平台,Wix 在其上线仅约一年后就以 8000 万美元将其收购。如今,Base44 已开始推出自己的 AI 模型,用自然语言帮助用户创建应用。公司称,其首个模型 Base1 是基于平台上数千万条真实用户交互数据训练出来的。创始人 Maor Shlomo 表示,把模型纳入完整技术栈之后,公司可以更好地优化延迟、成本和效率。此举发生在 AI 行业关于“建立在前沿模型之上的初创公司是否真的具备长期防御性”的讨论不断升温之际。
Shlomo 认为,专业化产品仍然可以占优,因为通用模型会保持“很强的通用能力”,但不会针对应用构建工作流做极致优化。Headline 普通合伙人 Jonathan Userovici 在文中提到,AI 初创公司的防御性通常取决于三个要素:数据、分发和技术栈。他同时提醒不要低估前沿模型,并以 Harvey 放弃自研模型计划为例说明这一点。Userovici 还指出,推理成本正成为实际商业问题,尤其是企业客户越来越希望通过编排和模型选择来控制成本,同时保持相近的性能。
Base44 创始人 Maor Shlomo 表示,将模型纳入完整技术栈后,未来有望在延迟、成本和效率上获得优化,尽管首个版本仍处于早期阶段。文章还提到,竞争对手平台和前沿 AI 实验室正在进入同一赛道,因此 Base44 的专门化可能带来优势,但并不构成绝对壁垒。
The Decoder

据报道,Meta开展了一项代号为“Cannes”的隐蔽安全测试项目,针对 ChatGPT、Gemini 和 Character.AI,使用了数千条以未成年人视角撰写的提示词。文章援引的报道显示,承包商创建了未满18岁的假账号,并发送了超过45,000条涉及自残、进食障碍、性和毒品的提示词,其中一次测试轮次发生在2025年8月。
这件事之所以重要,是因为它表明大型 AI 公司正在通过大规模对抗性测试,检验聊天机器人是否会在危机场景中给出不安全回应。它也引发了关于同意、服务条款合规性,以及敏感评测数据在更广泛 AI 安全生态中应如何处理的问题。
据报道,Meta秘密对多款竞争聊天机器人进行了测试,提示词是从处于危机中的未成年人视角编写的。这个内部项目据称名为“Cannes”,由承包商 Covalen 执行。数百名承包商假扮成未满18岁的用户,创建假账号后向 ChatGPT、Gemini 和 Character.AI 提交敏感提示词。提示内容涉及自残、进食障碍、性和毒品,承包商随后把模型回复复制到表格中进行分析。
WIRED 报道称,仅2025年8月的一轮测试就发送了超过45,000条提示词。Meta为此辩护称,这属于负责且符合行业标准的安全测试,并表示不会用收集到的回复训练自家模型。尽管如此,WIRED查看的文件并未明确说明 Meta 最终如何处理这些数据。被测试的公司则表示自己事先并不知情:Character.AI称这违反了其服务条款,OpenAI表示正在调查,Google则称未批准这些测试。
Meta表示,这种测试属于负责且符合行业标准的安全工作,并称不会将收集到的聊天机器人回复用于训练自家模型。不过,WIRED查看的文件并未说明Meta最终如何处理这些数据,而且被测试的公司都表示事先并不知情。
ZDNET AI

ZDNET 引述 Salesforce 报告称,当前有 61% 的美国成年人会使用 AI 获取健康信息,而 2024 年这一比例仅为 2%。该报告基于 2026 年 Connected Health Consumer 调查,覆盖了全球 3,200 名消费者。
这一激增表明,AI 正迅速进入患者查询症状、了解医疗流程和处理复诊问题的日常路径。它也意味着医疗机构可能需要适应用户对全天候、低摩擦数字支持不断提高的期待。
ZDNET 报道称,自 2024 年以来,公众对医疗 AI 的态度发生了明显变化。文章援引 Salesforce 的 Connected Health Consumer 报告指出,2024 年只有 2% 的美国成年人会用 AI 获取医疗信息,而现在这一比例已经升至 61%。这项调查覆盖了全球 3,200 名消费者,重点研究 agentic AI 如何改变医疗行业中的用户预期和患者体验。报告的一个核心发现是,行政流程上的摩擦正在把患者推离医疗服务,很多人因为预约太麻烦而推迟甚至放弃就医。
报告还显示,患者越来越希望 AI 能提供 24/7 帮助、处理预约等事务,并在就诊后主动进行跟进提醒。与此同时,信任仍然是有条件的:患者更愿意使用嵌入医疗机构安全门户中的 AI,也仍然希望保留人工监督和升级处理的渠道。ZDNET 认为,这一变化说明 AI 正在成为患者参与和沟通的重要组成部分,但并不是医生的替代品。
报告称,患者最愿意让 AI 处理的是排班、就医导航和就诊后的跟进检查等事务性任务,但在临床安全方面仍然需要人工监督。近 90% 的受访者希望保留升级给真人的选项,而且他们对嵌入医疗机构安全门户中的 AI,比对公共聊天机器人更信任。
Ars Technica AI

Google DeepMind 发布了 Nano Banana 2 Lite,也就是 Gemini 3.1 Flash Lite Image,并已在谷歌生态中开放使用。谷歌称它在低思考模式下生成图像大约只需 4 秒,是目前最快三、也最便宜的图像模型。
这款模型主要面向快速原型设计和创意探索,在这些场景里速度和成本往往比极致精细更重要。对于需要通过 API 或 Gemini 工具快速迭代图像方案的开发者和团队来说,它尤其有价值。
Google DeepMind 推出了 Nano Banana 2 Lite,这是 Gemini 3.1 系列中的一款新图像生成模型。谷歌称,它在自家图像工具中提供了质量与速度之间的最佳平衡,并且已经在整个谷歌生态内开放使用。按照谷歌的命名,这个模型的正式名称是 Gemini 3.1 Flash Lite Image。谷歌将其定位为用于探索创意和“快速冲刺”式原型设计的工具,因为这类场景更看重出图速度,而不是最终成品的极致精细。与此同时,谷歌也提供了一些示例,试图证明它的图像质量可以接近更大的模型。谷歌还引用了 Arena.ai 的 Elo 评分,显示用户对 Nano Banana 2 Lite 结果的评价几乎和非 Lite 版本一样高。
不过,谷歌也承认它存在一些明显短板,包括对小字体文本的处理较弱、在信息图中更容易出现错误,以及人物或角色在多次迭代中一致性不够。根据谷歌的说法,在低思考模式下,从文本生成图像大约只需要 4 秒,而标准版 Nano Banana 大约需要 20 秒。更轻量的模型也意味着 API 成本更低,谷歌称其平均每张图约为 0.034 美元。其 API 定价为每 100 万个输入 token 0.25 美元、每 100 万个输出 token 1.50 美元,是 Nano Banana 2 的一半。谷歌同时表示,如果用户需要更好的照片级真实感和文本渲染能力,Nano Banana Pro 仍然更合适,但对于快速迭代和设计灵感收集,Nano Banana 2 Lite 会更省时省钱。
谷歌表示,Nano Banana 2 Lite 在 API 层面的价格大约是 Nano Banana 2 的一半,输入 token 价格为每 100 万个 0.25 美元,输出 token 价格为每 100 万个 1.50 美元。谷歌也提醒,它在小字号文本、信息图以及人物或角色的一致性方面更容易出问题,尽管 Arena.ai 上的用户评分看起来接近非 Lite 版本。
Financial Times AI
《金融时报》发布了一篇名为“AI in Practice”的报告,梳理人工智能正在如何被应用到制药、空中交通管制、制造、游戏、心理健康、旅行和天文学等多个行业。该报告强调,AI 不是单一产品发布,而是一组正在改变工作流程和商业模式的现实变化。
这之所以重要,是因为它说明人工智能正在从概念热度转向具体行业落地,并带来真实的运营影响。读者可以看到,AI 已经开始影响成本、信任、自动化以及服务设计,覆盖监管严格和面向消费者的行业。
《金融时报》的“AI in Practice”报告关注人工智能正在如何被应用到多个行业之中。它并不是聚焦某一家企业或某个单一产品,而是讨论 AI 正在怎样改变多个领域的运作方式。报告明确提到的行业包括制药、空中交通管制、制造、游戏、心理健康、旅行和天文学。它同时指出了诸如高昂的 AI 账单等问题,说明 AI 落地并不是没有成本或摩擦的。
在制药领域,重点是 AI 如何改变药物发现及相关工作流程。在空中交通管制领域,报告特别提到“信任”问题,这在安全关键系统中尤为重要。制造业部分则与工厂自动化相关,而游戏领域被描述为正在重写既有规则。旅行部分提到“具备代理能力的旅行代理”,显示 AI 可能承担更多主动规划和执行任务的角色。
这篇报告强调的是多种应用场景,而不是某一个技术突破,包括“高昂的 AI 账单”和“具备代理能力的旅行代理”。这些行业案例表明,AI 的最大影响可能来自工作流重构和自动化,而不仅仅是模型性能提升。
Hugging Face Blog

Dharma AI 发布了一篇解读文章,主张 AI 系统最终必然会走向专门化,而不是无限通用化。文章从优化理论、生物学、经济学和机器学习四个角度展开,并明确围绕 2026 年论文《AI Must Embrace Specialization via Superhuman Adaptable Intelligence》的观点进行阐释。
这篇文章的重要性在于,它挑战了“AI 越强就应该越通用”的常见假设。它对模型设计、算力与数据分配,以及可靠性、成本和领域适配方式都有直接影响。
Dharma AI 认为,专门化是高效 AI 系统的核心原则之一,会影响成本、性能、可靠性和主权等多个方面。文章被定位为对 2026 年论文《AI Must Embrace Specialization via Superhuman Adaptable Intelligence》的解读,该论文作者为 Goldfeder、Wyder、LeCun 和 Shwartz-Ziv。文章首先指出,人们通常会直觉地认为,AI 越强大就应该越通用,但实际观察到的模式却相反。跨领域来看,最重要的突破往往来自为单一任务打造的系统,而不是广泛通用的系统。文中以蛋白质结构预测为例,说明一个高度针对性的系统可以取得重大成功。
随后文章转向优化理论,引用 Wolpert 和 Macready 在 1997 年的定理,指出不存在一种在所有可能问题上都优于其他算法的通用优化算法。基于这个定理,文章得出的现实结论是:算法的胜利来自对目标问题的高度匹配,尤其是在算力、数据和开发时间都有限的情况下。文章认为,“普适通用性”也许可以作为抽象概念存在,但在实践中是一个神话,因为资源如果分散到无限多的任务上,每个任务得到的资源会趋近于零。文章最后提到,生物学和其他领域也独立指向同样的结论,但所给摘录在展开这些论证前就结束了。
文章引用了 Wolpert 和 Macready 在 1997 年的结果,说明不存在一种在所有问题上都最优的通用优化算法。文章还强调,算力、数据和开发时间都是有限的,覆盖越广,每个任务可分配的资源就越少,因此专门化往往更容易在真实场景中取得更强表现。
OpenAI News
OpenAI 表示,新的 Signals 数据显示 ChatGPT 正在全球范围内增长。该公司称,用户使用 ChatGPT 的频率更高,也在探索更多功能,并推动了更多地区和语言中的采用。
这反映了全球最广泛使用的 AI 工具之一的产品势头。跨地区和跨语言的更广泛采用表明,ChatGPT 正在更深入地融入日常使用场景,也可能增强 OpenAI 在竞争激烈的 AI 助手市场中的地位。
OpenAI 发布了一篇说明,介绍 ChatGPT 的采用如何在全球范围内扩大。根据公司说法,新的 Signals 数据显示,用户正在更频繁地使用 ChatGPT,而不是只把它当作一次性工具。OpenAI 还表示,人们正在探索 ChatGPT 的更多能力,这说明用户与产品的互动更深入了。公司强调,增长来自更多地区和更多语言,表明其全球覆盖面在继续扩大。
此次更新并没有宣布新的模型、重大功能发布或技术突破。它更像是一则产品和使用情况更新,目的在于展示 ChatGPT 仍在持续获得用户认可。由于提供的摘要没有包含硬性指标,所以这条消息的重点是“采用正在扩大”这一趋势,而不是具体数字结果。
这次更新主要基于 OpenAI Signals 数据,而不是新的模型发布或产品上线。现有描述没有给出具体用户数量、增长率或地区拆分,因此核心信息更多是增长方向,而不是量化里程碑。
Simon Willison

Simon Willison 发布了 shot-scraper 1.10,并新增了 `shot-scraper video` 命令。这个命令读取 `storyboard.yml` 文件,并使用 Playwright 录制脚本化网页工作流程的视频,输出为 MP4 或 WebM。
这让开发者和智能体构建者有了一个实用方式来证明自动化流程确实可用,而不仅仅是“运行过”。它尤其适合演示、测试,以及为 AI 智能体相关的浏览器自动化制作文档。
Simon Willison 表示,shot-scraper 1.10 现在加入了一个新的 `shot-scraper video` 命令。这个命令接受一个 `storyboard.yml` 文件,用来描述要在网页应用上执行的流程,并借助 Playwright 将该流程录制成视频。Willison 将这个功能视为他长期尝试的一部分,目标是帮助编程智能体产出能够证明“确实可工作”的演示。为了展示效果,他给出了一个视频示例,演示对象是 Datasette 中一个仍在开发中的功能:允许用户把粘贴的 CSV、TSV 或 JSON 数据创建为新表。
这个演示通过一个命令生成,命令中指定了 storyboard 文件、通过 `--auth` 提供认证信息,并要求输出为 MP4。文中还说明,认证文件里包含一个 cookie,相关用法在项目文档中已有介绍。示例 storyboard 还定义了要启动的服务器参数、本地访问地址、1280×720 的视口、显示鼠标指针、等待条件,以及一段自定义 JavaScript,用来覆盖 `navigator.clipboard` 以适配演示场景。整篇文章把这次发布描述为一种实用的新方式,可用于自动化并录制浏览器工作流,从而帮助文档展示和功能验证。
这次发布以 YAML 形式的 storyboard 为核心,可以定义要启动的服务器、目标 URL、视口大小、是否显示光标、等待条件以及脚本场景。示例还展示了通过 JSON cookie 文件提供可选认证支持,并可用 JavaScript 钩子自定义浏览器行为,例如处理剪贴板。
TechCrunch AI

今年早些时候走红的开源 AI 代理 OpenClaw այժմ 已在 Android 和 iOS 上推出应用。与此同时,用户还可以将手机与 OpenClaw Gateway 配对,把请求转发给代理及其调用的工具和能力。
这一更新让 OpenClaw 更容易在用户最常携带的设备上使用,可能把它的受众从桌面用户和爱好者扩展到更广泛的人群。它也反映出一个更大的趋势:AI 代理正在从演示和网页应用,走向日常的移动工作流。
OpenClaw 是一款免费、开源的 AI 代理,今年早些时候曾因引发大量关注而走红,如今它已经正式以移动应用的形式登陆 iOS 和 Android。文章称,这一消息是 OpenClaw 在周二通过 X 发布的,标志着该项目从网络热梗进一步走向更容易接触的消费级产品。移动端用户可以把手机与 OpenClaw Gateway 配对,后者充当一种路由层,把用户请求连接到 AI 代理以及它们调用的工具。换句话说,用户现在可以直接用手机来运行自己的 OpenClaw 代理,而不必只依赖桌面端工作流。文章提到,用户已经把 OpenClaw 用在编码、膳食规划等任务上。
与此同时,也有一些用户反馈结果并不理想,说明这个系统并非在所有场景下都可靠。OpenClaw 之所以出圈,与其在 MoltBook 上线时的传播密切相关;MoltBook 被宣传为一个完全由代理组成的社交网站。后来研究者指出,这场展示在某种程度上其实包含了人类冒充代理的成分,因此它既像一场表演,也起到了为 OpenClaw 做营销的作用。文章还补充说,OpenClaw 的创建者 Peter Steinberger 在 2 月宣布自己已经加入 OpenAI。尽管如此,这次移动应用发布仍被视为 AI 代理持续进入更多场景、尤其是手机端的重要一步。
OpenClaw 将 Gateway 描述为一种路由层,用来把用户请求连接到 AI 代理,以及这些代理所依赖的工具和技能。文章还提到,OpenClaw 曾被用于编码和膳食规划等任务,但也有用户反馈效果并不理想。
TechCrunch AI

新加坡初创公司 Acti 于周二推出了一款面向 iOS 和 Android 的智能代理键盘。它不仅能联想输入文字,还能跨应用执行操作,例如在邮件、消息和社交媒体中完成任务。
这次发布展示了消费级 AI 的另一种方向:不是让用户反复切换到独立聊天机器人,而是把 AI 直接嵌入人们最常用的界面中。如果体验足够好,它可能让跨应用协助更快、更自然,适用于日常移动工作流。
Acti 是一家总部位于新加坡的初创公司,目标是把 AI 直接带进智能手机键盘。该公司于周二推出了一款面向 iOS 和 Android 的代理式键盘,不仅可以辅助输入文字,还能代替用户跨应用执行操作。Acti 的核心主张是,这样可以减少人们在邮件、消息和社交应用中寻求 AI 帮助时反复切换应用的麻烦。创始人兼 CEO Young Wang 表示,现有 AI 代理之所以受限,是因为用户上下文分散在不同应用之间,而 Acti 设计为横跨这些应用,从而建立属于用户自己的上下文层。他认为,这将成为 AI 代理时代的基础。Acti 由 Google 的 Gemini 模型驱动,Wang 说这是因为 Gemini 在智能、速度、可靠性、多语言表现和成本之间比较均衡。
该应用的一个重要功能是 Skills,类似自定义快捷方式,用户可以通过键盘上的单个按键触发多步骤任务,例如翻译消息或快速分享会议链接。公司表示,用户无需编程,只要用自然语言描述想要的功能,Acti 就会帮助生成;在早期测试阶段,用户在不到两周内就创建了 1000 多个 Skills。Acti 还计划推出 Skills 市场,方便用户共享或发现别人制作的 Skills,其中包括实时世界杯数据或 Polymarket 链接等功能。为了隐私保护,该应用采用本地优先模式,默认把个人上下文保留在设备上,只有在用户明确调用需要外部处理的功能时,才会访问私人消息。Wang 还提到,自己此前在百度打造 Facemoji Keyboard,并将其发展到超过 3 亿日活,这段经历促使他相信,随着大语言模型出现,文本已经从单纯输入内容变成了承载意图并可直接转化为行动的载体。
Acti 由 Google 的 Gemini 模型驱动,公司称其在智能、速度、可靠性、多语言表现和成本之间取得了平衡。它采用本地优先设计,默认将个人上下文保留在设备上,并提供 Skills 功能,让用户把单个按键绑定为翻译消息或发送会议链接等多步骤操作。
TechCrunch AI

·#mcp
X推出了一个托管的模型上下文协议(MCP)服务器,让AI助手和其他兼容MCP的应用可以使用用户自己的账号权限连接到X的API。TechCrunch称,这样开发者就不必为了接入X而自行搭建和维护MCP服务器了。
这降低了AI应用开发者的接入成本,也让X更容易作为Claude、Cursor等助手中的实时数据源使用。与此同时,这也说明行业正在更广泛地转向官方MCP端点,GitHub、Slack、Notion、Stripe和Salesforce等公司都已经提供了类似支持。
X正在推出一个托管的MCP服务器,让AI工具更容易使用其平台。新的服务器允许Claude、Cursor、Grok Build等AI助手,以及其他兼容MCP的应用,直接连接到X的API。过去,开发者如果想让AI助手接入X,必须自己搭建、托管并处理认证流程;现在这部分由X来负责。用户则使用自己的X账号权限完成认证,从而简化了配置并减少集成工作量。X表示,这项功能并没有增加API原本不具备的新能力,而只是让这些能力更容易在AI应用中被调用。
也就是说,AI工具现在更容易利用X来搜索内容、阅读帖子、查找用户,以及分析对话和趋势。X也借此强调自己不仅是一个社交网络,还可以作为一个可供检索和分析的实时信息来源。与此同时,X回应了外界对垃圾内容和自动化发帖的担忧,称该MCP工具不支持Write API端点,因此不能用于自动发帖。X还表示,现有API规则仍会限制垃圾行为,而且公司今年早些时候已经更新了API v2和定价,以减少滥用。
X表示,这个托管MCP并没有新增API能力;它主要只是让搜索X、阅读帖子、查找用户以及分析对话等现有功能更容易暴露给AI应用。X还明确说明,该工具不提供Write API端点访问,因此不能用于自动发帖,而现有针对垃圾行为的API规则仍然适用。
TechCrunch AI

OKX 正式推出 OKX AI,这是一个允许 AI 代理相互雇佣、自动使用稳定币付款,并建立可移植链上信誉的市场。该平台在经历了包含 50 家早期 AI 服务提供商的封闭测试后,现已面向开发者开放。
这次发布意味着 OKX 正在从加密交易平台向新兴“代理经济”的基础设施层扩展,在这种模式下,软件代理可能无需人工干预就能完成交易。若这一模式获得采用,它可能会带来 AI 工具、微支付、身份和争议解决的新市场。
OKX 正在推出 OKX AI,这是一个面向 AI 代理的市场,旨在让它们能够寻找工作、为服务付费,并彼此建立信任。公司表示,该平台将在周二向开发者开放,此前已进行过包含 50 家早期 AI 服务提供商的封闭测试。OKX 此前已经开发出让 AI 代理持有钱包、使用稳定币付款以及在链上保持持续身份的技术,而这次发布是在此基础上的延伸。公司将其描述为“代理经济”的基础设施,在这种经济形态中,自治软件会成为新的经济参与者。创始人兼首席执行官 Star Xu 表示,未来十年将由“一个人公司”主导,而每个人都将获得几乎无限的 AI 劳动力,因此传统金融基础设施并不是为代理而设计的。
首席营销官兼全球管理合伙人 Haider Rafique 认为,“代理式商业”在未来五年内可能成长为一个万亿美元市场。这个市场面向加密开发者和希望用 AI 自动化业务部分流程的个人创业者,同时也让其他用户无需从零开发即可直接使用 AI 工具。早期合作方包括 CertiK、CoinAnk 和 GenLayer,它们分别提供安全检查、市场数据和争议解决能力。OKX 认为,借助稳定币和区块链网络,代理可以实现全天候结算,包括在传统支付系统中难以处理的微支付。公司还表示,会把交易所现有的欺诈检测和合规系统应用到该市场,并分阶段向更广泛用户开放。
OKX 表示,该市场使用基于区块链的支付和稳定币,使代理可以全天候结算交易,包括在传统支付网络上不太现实的低价值微支付。早期合作方包括用于钱包或代币安全检查的 CertiK、按查询付费提供市场数据的 CoinAnk,以及提供争议解决基础设施的 GenLayer。
The Decoder

据《The Information》转述的消息,OpenAI 工程师本月早些时候向同事表示,他们已经将运行 ChatGPT 的推理成本削减了一半以上。此次优化主要应用于未登录的访客用户,据称支撑这些用户所需的 Nvidia GPU 数量已经降到只剩几百块。
如果属实,这对 AI 服务中最昂贵的环节之一——推理——是一个重要的效率提升。更低的服务成本可以把算力腾出来用于更多用户、更快响应或更高利润率,但短期内未必会明显削弱对芯片的需求。
不过,文章并没有说明底层到底做了哪些改动,也没有披露优化前的 GPU 占用规模有多大。报道同时指出,访客用户只能使用 ChatGPT 的一小部分功能,因此这种节省未必能直接推广到完整产品。
整体来看,这被描述为一次重要的效率提升,但不一定会立刻减少行业对芯片的总需求。相反,这类节省更可能让 AI 实验室在扩容、改进模型或承接更多流量时拥有更大的缓冲空间。
报道没有说明 OpenAI 采用了哪些具体技术,也没有给出优化前需要多少 GPU。此次收益只针对功能受限的访客用户,因此目前还不清楚同样的节省效果能否扩展到完整产品。
The Decoder

《纽约时报》的一篇报道指出,美国共和党和民主党竞选活动如今几乎在每个环节都在使用AI,从选民微定向到对手研究和信息撰写。文章还指出,欧洲采取了严格得多的监管路线,尤其是在政治广告和AI生成内容方面。
这表明AI已经迅速变成政治竞选的基础运营工具,而不只是生成图片或文本的新鲜玩意。美国和欧洲在做法上的分歧意味着,竞选团队、选民和监管机构正在走向截然不同的规范,尤其体现在定向投放、透明度和可接受用途上。
《纽约时报》的一篇报道描绘了AI如何已经嵌入美国政治竞选的几乎每一个环节。竞选团队正在用它分析选民数据、撰写宣传材料、定制触达信息,甚至把拉票过程中收集到的对话转化为可执行的洞察。报道举例说,在宾夕法尼亚州第10国会选区,一名表示自己“讨厌AI”的选民的发言,被输入到一个由AI驱动的应用中,并与大量类似对话一起进行汇总分析。Swing Left 的一名组织负责人告诉《纽约时报》,一个人说的每句话都会被当作数据点来处理。报道称,这种变化并不只体现在显眼的AI生成图片或视频上,而是已经覆盖到更广泛的工作流程;Anchor Change 的调查还显示,87% 的竞选策略人员每天都在使用AI。
报道同时提到,民主党研究对手的组织 American Bridge 21st Century 用AI审查了大约250名共和党候选人。尽管AI应用迅速扩张,它仍然是一个政治敏感点,因为民主党选民和工作人员对其更怀疑,而共和党阵营似乎受到的内部阻力更小。文章还指出,共和党更愿意依赖私人AI公司,而民主党更偏好非营利模式。作者认为,这种差异可能影响激烈选区的胜负,并为2028年总统大选的AI策略定下基调,而11月的中期选举将成为一次重要的实战测试。与美国形成对比的是,欧洲对政治广告和AI透明度的规则要严格得多,这反映出欧盟正在沿着不同的监管路径前进。
报道称,Anchor Change 的调查显示,87% 的竞选策略人员每天都在使用AI,民主党组织 American Bridge 21st Century 还用AI审查了大约250名共和党候选人。在欧洲,政治广告必须明确标注并披露资金来源和投放对象等信息,不能使用政治观点或族裔背景等敏感数据进行画像;AI 法案随后还会为某些深度伪造和公共议题相关的AI内容加入标注要求。
The Verge AI

OverDrive 表示,Libby 应用将加入新的设置,允许用户筛选掉 AI 生成内容,包括 AI 写作的图书、AI 朗读的有声书、机器翻译以及 AI 生成的艺术作品。新任 CEO Marc DeBevoise 说,公司希望让用户知道哪些内容可用,以及这些内容是如何制作的。
Libby 被成千上万家图书馆使用,因此即使是一个小的政策变化,也可能影响数百万读者如何发现数字图书。此举也反映出出版行业正在尝试标注和管理 AI 内容,而不是完全拒绝这项技术。
OverDrive 是图书馆借阅应用 Libby 的母公司,它正在为 AI 生成图书带来的增长压力做准备,并计划加入 AI 内容控制功能。新任 CEO Marc DeBevoise 表示,目标是让读者能够在应用中选择是否查看 AI 生成内容。这个筛选功能将覆盖 AI 写作的图书、AI 朗读的有声书、机器翻译以及 AI 生成的艺术作品。DeBevoise 说,用户需要知道有哪些内容可用,以及这些内容是如何制作出来的。OverDrive 试图走一条中间路线:既允许读者和馆员选择屏蔽 AI 内容,也继续使用 AI 来提升内容推荐和本地化等功能。
此前,Libby 在去年推出过一些 AI 功能,并因此遭到过批评。OverDrive 表示,它的大部分馆藏都早于现代大语言模型出现,因此从时间上看并不是 AI 生成的作品。不过,公司也承认 AI 内容很可能会通过 Draft2Digital 之类的自出版中介进入目录;该服务允许经过“人类大量编辑”的 AI 生成图书。OverDrive 选择不使用 AI 检测器来自动标记,而是依赖出版商通过标准化元数据自行标注作品。
OverDrive 表示,它将依赖出版商提供的标准化元数据来标注 AI 内容,而不是使用自动化 AI 检测器。公司还希望在提供 AI 屏蔽选项的同时,保留其认为有价值的 AI 功能,尤其是在推荐和本地化方面,例如有声书。
ZDNET AI

苹果周一为 iOS、iPadOS 和 macOS 发布了提前的安全更新,共修复 29 个系统和 WebKit 漏洞。苹果将这些补丁从原本预期的 26.6 版本发布时间提前,理由是 AI 驱动的安全威胁正在增加。
尽管目前没有证据表明这些漏洞已被实际利用,但一旦公开,攻击者仍可能加以利用,因此更新可以降低 iPhone、iPad 和 Mac 用户的风险。此次提前发布也表明,随着 AI 帮助攻击者加速行动,软件厂商正在转向更快、更小的安全补丁节奏。
苹果比预期更早推出了针对 iOS、iPadOS 和 macOS 的安全更新,共修复 29 个漏洞。该更新于周一发布,iPhone 和 iPad 用户可在“设置”里的“通用”→“软件更新”中安装,Mac 用户则在“系统设置”中更新。报道指出,其中一些补丁修复的是操作系统内核漏洞,但大多数修复集中在 WebKit。ZDNET 表示,这 29 个漏洞目前都不是已在野外被利用的零日漏洞。
尽管如此,用户仍被建议尽快更新,因为漏洞细节已经公开,攻击者可能据此发起利用。文章特别强调,WebKit 的风险更高,因为它不仅用于 Safari,也用于许多 iOS 应用内嵌网页的渲染。苹果对 Reuters 表示,此次提前发布与 AI 驱动的安全威胁有关,公司希望缩短发现漏洞与向公众发布修复之间的时间。报道将这一变化描述为整个行业从“大版本统一打补丁”转向更快、更频繁安全更新的一个信号。
报道指出,部分修复针对的是内核漏洞,但大多数修复集中在 WebKit,也就是 Safari 以及许多应用内网页视图所使用的浏览器引擎。安全研究员 Adam Boynton 指出,WebKit 漏洞不仅限于 Safari,很多问题属于内存安全缺陷,可能通过恶意内容触发。
ZDNET AI

ZDNET 介绍了一条简单的“加五”法则来提升无线充电速度:墙充的功率最好比无线充电器的最大输出高出 5W。文章指出,iPhone 用户通常应至少使用 20W 的 USB-C 充电头,尤其是搭配 15W 的 MagSafe 或 Qi2 充电器时。
很多人会因为给无线充电器配错线材或充电头,而在不知不觉中降低充电速度。遵循这一规则可以提升充电效率、减少等待时间,并帮助用户获得设备原本应有的快充体验。
ZDNET 指出,无线充电虽然方便,但如果电源搭配不当,很容易在不知不觉中降低效率。文章重点介绍了一条作者称为“Plus Five(加五)”的简单规则:墙充的输出功率最好比无线充电器的最大输出高出 5W。由于无线充电会因为热量和磁场泄漏而损失一部分能量,功率不足的充电头会让充电板无法达到标称速度。文中举例说,如果把一个 15W 的无线充电板接到低功率充电头上,虽然仍然能充电,但速度会被限制,整体体验会明显变慢。
文章建议尽量使用无线充电器自带的线材和充电头,或者直接购买更高功率的充电器来补足需求。对于 iPhone 快充,ZDNET 认为至少 20W 的 USB-C 充电头是很好的起点,尤其是在许多 MagSafe 和 Qi2 充电器已经支持 15W 的情况下。作者还提到,很多人家里会混用不同的充电头,结果在没有察觉的情况下让无线充电变慢。实际使用中,换成正确且功率更高的充电组合后,设备通常会重新显示“快速无线充电”,并给出更短的预计充满时间。
文章指出,无线充电本身就会因为发热和磁场损耗而效率更低,因此墙充功率不足会拖慢整体速度。文中还提醒,廉价或未认证的充电头可能存在安全隐患,使用原装线材或更高输出的充电头通常能恢复更快的充电表现。