AI 日报

AI 安全、估值与政策同时爆发:从 Copilot 漏洞到 SpaceX 上市

今天的主线是“AI 正在同时变得更强、更贵,也更受监管”。一边是企业助手、模型可靠性和内容安全持续暴露风险,另一边则是资本市场、云定价和政府采购把 AI 推向更深的制度层面。与此同时,SpaceX 上市、OpenAI 财务泄露和多家厂商的商业化调整,显示 AI 产业正在进入更残酷的规模化阶段。

当天导读

从 65 条资讯中筛选出 24 条

今天的主线是“AI 正在同时变得更强、更贵,也更受监管”。一边是企业助手、模型可靠性和内容安全持续暴露风险,另一边则是资本市场、云定价和政府采购把 AI 推向更深的制度层面。与此同时,SpaceX 上市、OpenAI 财务泄露和多家厂商的商业化调整,显示 AI 产业正在进入更残酷的规模化阶段。

Copilot 漏洞把企业 AI 安全问题推到台前

微软修补的 M365 Copilot 严重漏洞可被用来提取 2FA 代码和敏感邮件内容,说明嵌入办公系统的 AI 助手可能成为新的外泄入口,而不是单纯的生产力工具。

OpenAI、Anthropic 与微软都在重写 AI 的评测和计费逻辑

OpenAI 用真实对话做部署模拟,微软考虑 Copilot 按量计费并引入更便宜的模型后端,Anthropic 则暂停了 SDK 计费变更;三者都指向同一个趋势:AI 正从“功能发布”进入“成本与风险治理”阶段。

SpaceX 上市与 OpenAI 财务泄露共同揭示 AI 资本热度与成本现实

SpaceX 创纪录 IPO 带来市场狂欢,但 OpenAI 泄露财务显示收入增长远快于支出控制,说明 AI 产业的资本叙事仍在扩张,而利润模型仍未稳定。

AI 监管正从模型能力延伸到出口管制与能源许可

Anthropic 的模型访问被卷入出口管制争议,而 xAI 的孟菲斯涡轮机争议又把 AI 基础设施与国家安全、能源安全直接捆绑,显示监管焦点已覆盖模型、员工访问和电力来源。

AI 助手市场进入多强竞争,Google 与 Claude 继续蚕食 ChatGPT 份额

Sensor Tower 数据显示 ChatGPT 份额首次跌破 50%,Gemini 和 Claude 明显受益,表明 AI 助手市场开始从单极格局转向更成熟的多平台竞争。

AI 正加速渗透政府、硬件与公共服务流程

从英国规划审批到五角大楼报告,再到 Plaud 的 AI 记事硬件突破 1 亿美元 ARR,AI 的落地重点正从聊天走向制度化工作流和专用设备。

今日主题

AI 的扩张正从“模型能力竞赛”转向“安全、成本、分发与监管”的综合博弈。今天最重要的信号是:企业级 AI 已经深入核心工作流,但这也让漏洞、出口管制、计费变化和基础设施争议变得更具现实影响。

头条观察

  • 企业 AI 安全仍然脆弱:M365 Copilot 被曝可泄露 2FA 代码和敏感邮件内容,说明嵌入办公流的 AI 助手本身可能成为数据外泄通道(#2557)。
  • AI 评测正向真实部署靠拢:OpenAI 推出 Deployment Simulation,试图用真实对话数据预测模型上线后的行为,以提升安全评估准确性(#2558)。
  • AI 商业化继续重估定价:微软考虑把 Copilot Cowork 改为按量计费,并可能引入更便宜的 DeepSeek 后端;Anthropic 也暂停了 Claude Agent SDK 的计费变更(#2570, #2574)。

市场与资本

SpaceX 上市后迅速成为全天焦点:TechCrunch 将其描述为历史上最大规模 IPO,股价波动也将估值一度推高至 2.6 万亿美元,甚至短暂超过亚马逊(#2559, #2561)。与此同时,泄露财务文件显示 OpenAI 收入快速增长,但研发、算力和销售开支让亏损继续扩大,凸显“AI 增长很快,盈利却很难”这一现实(#2556)。

产品与平台

Google 继续把 Android、Wear OS 和 Gemini 绑在一起推进,更新覆盖多任务、生成式音频/视频能力以及 Pixel 硬件体验,显示操作系统正在成为 AI 展示的核心阵地(#2562)。在消费级 AI 助手市场上,ChatGPT 的份额首次跌破 50%,Gemini 与 Claude 正在分食用户注意力(#2564)。

政策、基础设施与监管

AI 的能源和治理问题今天同样突出。美国司法部支持 xAI 在孟菲斯使用未许可燃气涡轮机的立场,把 AI 数据中心与国家安全、能源安全直接绑定(#2563)。在政策另一端,Anthropic 的 Claude 模型还陷入了美国出口管制争议,显示前沿模型访问本身正被纳入国家安全工具箱(#2565, #2568)。

生态扩散:从硬件到政府

AI 正继续渗透到新场景:Google DeepMind 与英国政府试点 Gemini 驱动的规划工具,目标是加速住房审批(#2567);Pentagon 公开表示正在用生成式 AI 撰写国会要求的报告(#2575);Plaud 则凭借 AI 记事硬件与订阅模式突破 1 亿美元 ARR,说明“AI + 硬件 + 订阅”仍有机会(#2578)。

值得关注的后续

  1. 企业助手安全边界 是否会因 Copilot 漏洞继续收紧(#2557)。
  2. AI 定价模式 是否会从固定订阅进一步转向按量计费(#2570, #2574)。
  3. 监管与基础设施冲突 是否会扩展到更多数据中心和模型访问限制(#2563, #2565)。
  4. 市场份额变化 是否意味着 AI 助手竞争进入真正的多强格局(#2564)。

当日精选 8 条

01

Ars Technica AI

M365 Copilot 严重漏洞泄露 2FA 代码

·#ai-security

M365 Copilot 严重漏洞泄露 2FA 代码

微软修补了 M365 Copilot 中一个被评为最高严重级别的漏洞,研究人员随后披露,他们的概念验证可以从 Copilot 可访问的电子邮件中提取 2FA 代码和其他敏感信息。这个利用链由 Varonis 设计,被描述为绕过了 Copilot 内置的防护措施。

这表明,即使企业 AI 助手本身并不被允许直接外传数据,也可能成为敏感信息泄露的通道。由于 Copilot 深度嵌入办公邮件和文档工作流,这类漏洞可能影响大量组织及其认证密钥。

微软在上周二修补了 M365 Copilot 中一个严重漏洞,因为研究人员发现可以滥用这个助手对电子邮件内容的访问权限。到周一时,研究人员公开说明了他们的概念验证利用方式,称其可以从 Copilot 被允许读取的消息中提取 2FA 代码和其他敏感信息。文章指出,这类问题背后有一个更深层的根源:大型语言模型无法可靠地区分真正的用户指令和隐藏在第三方内容中的恶意指令。正因为如此,微软和其他厂商只能依赖多层防护措施,而不是一个完全可靠的技术边界。

在这个案例中,一道防线试图阻止 Copilot 发送邮件、提交表单或执行类似的数据外泄动作,另一道防线则把输出包裹在代码块中,并限制 Copilot 可访问的网站。Varonis 表示,他们的利用链名为 SearchLeak,能够跳过这些保护。第一步是 Parameter-to-Prompt Injection,也就是把恶意命令藏在 URL 的 q 查询参数里,而不是藏在被总结的内容中。最终,这条路径形成了一个严重的数据泄露通道,可能暴露 MFA 代码、邮件、会议细节以及其他私有组织信息。

研究人员使用了一种他们称为 Parameter-to-Prompt Injection 的技术,把恶意指令放进 URL 的查询参数 q 中,而不只是放在电子邮件正文等不可信内容里。文章还指出,Copilot 的防护措施会阻止提交表单或访问未批准网站等动作,但这个利用链仍然成功越过了这些防线。

查看单篇正文查看原文
02

OpenAI News

·#ai-safety

OpenAI 通过部署模拟预测模型行为

OpenAI 发布了 Deployment Simulation,这是一种利用真实对话数据来预测 AI 模型在发布后可能表现的方法。该公司表示,这种方法旨在提升安全评估能力,并让部署前的评测更准确。

如果这种方法有效,实验室就能在模型接触用户之前发现有害或非预期行为,从而降低部署风险。对于前沿 AI 系统来说尤其重要,因为评测中的微小缺口都可能带来更大的安全和信任问题。

OpenAI 推出了 Deployment Simulation,这是一种在模型真正部署前预测其行为的新方法。该方法使用真实对话数据,说明 OpenAI 希望让安全评估更贴近真实用户交互场景。根据公告,这一方法的目标是提高发布前评估的准确性,而不仅仅依赖传统的离线测试。这样做很重要,因为模型在面对真实用户和真实提示词时,表现可能会与实验室环境下明显不同。

通过模拟部署,OpenAI 希望在发布流程的更早阶段发现安全问题。公司将这项技术定位为改进 AI 系统评测实践的一部分。现有材料没有说明具体模型版本、实验结果或技术实现细节。尽管如此,这一公告仍然反映出 AI 安全领域的一个更大趋势:让模型在更接近真实世界的条件下接受测试。

这种方法的核心是在模拟部署环境中使用真实对话数据,而不仅仅依赖离线测试。该公告强调了安全性和评测准确性,但给出的材料没有提供具体基准结果、局限性或模拟实现方式。

查看单篇正文查看原文
03

TechCrunch AI

SpaceX 以创纪录 IPO 上市

·#spacex

SpaceX 以创纪录 IPO 上市

SpaceX 已完成上市,TechCrunch 将其描述为历史上最大规模的 IPO:公司以每股 135 美元定价 5.556 亿股,随后募集总额扩大到 857 亿美元。该股于 6 月 12 日在 Nasdaq 开始交易,并在开盘后迅速上涨。

这次上市让公众投资者可以直接参与 SpaceX 的火箭和 Starlink 业务,因而重塑了航天和卫星互联网格局。它的规模也对资本市场意义重大,因为它刷新了 IPO 规模纪录,并将巨大的财富和影响力集中到这家从私营走向公众的科技巨头身上。

SpaceX 已完成上市,TechCrunch 将其描述为历史上最大规模的 IPO:公司以每股 135 美元定价 5.556 亿股,随后募集总额扩大到 857 亿美元。该股于 6 月 12 日在 Nasdaq 开始交易,并在开盘后迅速上涨。 这次上市让公众投资者可以直接参与 SpaceX 的火箭和 Starlink 业务,因而重塑了航天和卫星互联网格局。

它的规模也对资本市场意义重大,因为它刷新了 IPO 规模纪录,并将巨大的财富和影响力集中到这家从私营走向公众的科技巨头身上。 交易异常活跃:SpaceX 股价在 Nasdaq 以 150 美元开盘,盘中一度上涨 30%,最终收于 160.95 美元,涨幅 19%。TechCrunch 还提到 Robinhood 出现创纪录流量、投行总计约赚取 5 亿美元费用,以及可能启用“绿鞋机制”,在需求强劲时允许承销商最多多卖出 15% 的股份。

交易异常活跃:SpaceX 股价在 Nasdaq 以 150 美元开盘,盘中一度上涨 30%,最终收于 160.95 美元,涨幅 19%。TechCrunch 还提到 Robinhood 出现创纪录流量、投行总计约赚取 5 亿美元费用,以及可能启用“绿鞋机制”,在需求强劲时允许承销商最多多卖出 15% 的股份。

查看单篇正文查看原文
04

Ars Technica AI

OpenAI 泄露财务显示巨额亏损

·#openai

OpenAI 泄露财务显示巨额亏损

泄露的经审计财务报表显示,OpenAI 的收入从 2024 年的 37 亿美元跃升至 2025 年的 130.7 亿美元,但支出增长得更快。与此同时,该公司正在提交保密的 SEC 文件,为预期中的 IPO 做准备。

这些数字凸显了 AI 增长与 AI 经济性之间的矛盾:即使用户和收入快速扩张,OpenAI 仍可能在消耗巨额现金。这对投资者、企业客户以及整个 AI 行业都很重要,因为它说明将前沿模型研发转化为盈利业务可能比想象中更难。

随着 OpenAI 在预期中的首次公开募股前推进保密的 SEC 申报,泄露的经审计财务报表让外界罕见看到这家公司的财务状况。这些文件由独立记者 Ed Zitron 获取,并被 Financial Times 审阅,显示 OpenAI 的收入从 2024 年的 37 亿美元增长到 2025 年的 130.7 亿美元。Financial Times 还报道称,到 2025 年底,OpenAI 的月收入已接近 20 亿美元,说明全年收入仍在继续上升。然而,公司的成本增长速度比收入更快。仅研发支出就从 2024 年的 78.1 亿美元上升到 2025 年的 191.8 亿美元,其中 105.9 亿美元与支付给 Microsoft 的研发成本有关。OpenAI 的收入成本从 26.5 亿美元增加到 75 亿美元,销售和营销支出也从 11.1 亿美元增加到 57.3 亿美元。

这使其经营亏损从 2024 年的 87.8 亿美元扩大到 2025 年的 209.2 亿美元,尽管按收入比例计算,亏损幅度略有改善。公司的净亏损表面上在 2025 年飙升至接近 390 亿美元,但其中很大一部分来自约 300 亿美元的一次性会计费用,这与其转向营利性结构时的估值变化有关。Financial Times 引述知情人士称,如果扣除这笔费用,2025 年净亏损约为 80 亿美元。OpenAI 表示希望在 2030 年实现盈利,但这些数字说明它必须先控制训练、算力和销售开支。与此同时,企业客户开始对按 token 计费提出质疑,并要求 AI 支出带来可衡量的回报;在订阅端,来自 Anthropic 的竞争也可能迫使 OpenAI 降价,而这会在短期内进一步压低利润。OpenAI 还在 3 月关闭了 Sora 视频生成模型,应用部门负责人 Fidji Simo 也曾告诉员工,公司将减少“side quests”,并把重点转向核心编码和企业用户。

据称,OpenAI 的研发支出从 2024 年的 78.1 亿美元增至 2025 年的 191.8 亿美元,其中包括向 Microsoft 支付的 105.9 亿美元研发成本。其收入成本也从 26.5 亿美元增至 75 亿美元,销售和营销支出则从 11.1 亿美元增至 57.3 亿美元。

查看单篇正文查看原文
05

TechCrunch AI

SpaceX市值短暂超越亚马逊

·#spacex

SpaceX市值短暂超越亚马逊

SpaceX新上市股票在周二推动其估值升至约2.6万亿美元,短暂成为全球第五大最有价值公司,并一度超过亚马逊。随后股价回落,此前最高曾冲到2.9万亿美元。

这表明,当流通股份有限且交易热度极高时,刚上市公司的估值可以在短时间内快速重定价。它也说明投资者正在给 SpaceX 的 AI 计划和新收入来源赋予极高价值,尽管该公司目前仍在亏损。

周二,SpaceX一度超越亚马逊,成为全球市值第五高的公司,随后到收盘前又回吐了部分涨幅。该公司新上市股票在周一首个完整交易日已经上涨了 20%。周二,SpaceX 宣布收购 AI 编程公司 Cursor,同时其股票期权交易也正式开始,这两件事一起推动股价进一步上冲。SpaceX 的估值一度达到 2.9 万亿美元,之后才回落。尽管如此,该公司去年的财务表现并不亮眼:营收 187 亿美元,却亏损 49 亿美元,而亚马逊在 2025 年则实现了 780 亿美元利润和 7170 亿美元销售额。

SpaceX 近期还新增了与 Anthropic 和 Google 的算力租赁交易,但这些协议被描述为非约束性。公司还表示,Cursor 交易在第三季度完成后,其收入将被并入 SpaceX。SpaceX 的 IPO 首日估值约为 1.7 万亿美元,融资近 860 亿美元,而且只拿出约 4% 的总股份进入公开交易市场。正因为流通盘很小,市场波动被放大,周二当天就有超过 3 亿股成交。盘后交易中,SpaceX 的估值还曾第二次短暂超过亚马逊,然后再次回落。

SpaceX 只拿出约 4% 的股份供交易,专家此前就预计这会让股价更容易大幅波动。周二当天成交了超过 3 亿股,另外公司宣布收购 Cursor 以及开始期权交易,也进一步推高了股价。

查看单篇正文查看原文
06

TechCrunch AI

Android 17 推出新多任务与 Gemini AI

·#android

Android 17 推出新多任务与 Gemini AI

谷歌已经发布 Android 17 和 Wear OS 7 的正式版,并首先面向自家的 Pixel 设备推送。此次发布还带来了 Pixel Drop,加入了 Lyria 3 音乐生成、Gemini Omni 视频编辑,以及面向 Pixel 10a 的基于 AudioLM 的语音翻译功能。

这次发布表明谷歌正把 Android 和 Pixel 硬件作为最新 AI 模型与设备体验的主要展示平台。它之所以重要,是因为它把操作系统级多任务改进与更广泛的 Gemini 集成结合起来,覆盖手机、手表和其他硬件。

谷歌周二发布了 Android 17 的正式版,以及智能手表对应的 Wear OS 7。此次推送首先面向谷歌自家的 Pixel 设备,并伴随一次 Pixel Drop 更新,带来了多项新功能。最受关注的新增能力包括:用于音乐生成的 Lyria 3、多模态编辑能力的 Gemini Omni,以及在 Pixel 10a 上通过 AudioLM 提供的语音翻译工具。谷歌将这次发布定位为其用 Android 和 Pixel 设备展示最新 AI 技术的一部分。这个策略也发生在苹果准备于今年晚些时候推出 Siri 和 iOS 27 的 AI 升级之际。Android 方面,这次更新引入了一个名为“bubble bar”的界面元素,可将最近的应用以气泡形式放在屏幕底部,帮助用户更快切换和处理多应用任务。

谷歌还增强了安全和家长控制功能,包括 Find Hub 的“标记为丢失”、Live Threat Detection,以及无需绑定 Google 账号、可通过 PIN 设置的屏幕时间和内容过滤工具。此次更新还加入了适用于折叠屏的游戏模式,采用 50/50 布局和动态虚拟方向键。Pixel Drop 还把紧急检测功能带到 Google Pixel Watch 上,如果手表检测到车祸、跌倒或无脉搏情况,就会自动联系急救服务和用户预设的紧急联系人。Wear OS 方面,手机应用的实时更新可以同步到手表上,手表与即将推出的 AI 眼镜和耳机等硬件的兼容性也更好。谷歌还表示,Wear OS 在夏季会加入更多 Gemini Intelligence 功能,比如通过文字描述创建个性化小组件,以及借助 Google 应用和聊天记录实现“Personal Intelligence”。此外,谷歌称新版本还将带来最高 10% 的续航提升,以及多步骤自动化能力。

Android 17 新增了“bubble bar”,可将最近使用的应用以气泡形式组织在屏幕底部,方便快速切换;同时还增强了家长控制、Find Hub 的“标记为丢失”、Live Threat Detection,以及无需绑定 Google 账号、可用 PIN 设置的屏幕时间和内容过滤。Pixel Drop 还为 Google Pixel Watch 加入了跌倒、车祸和无脉搏检测后的紧急联络功能,而 Wear OS 则增加了来自手机应用的实时更新、对 AI 眼镜和耳机的支持、最高 10% 的续航提升,以及多步骤自动化。

查看单篇正文查看原文
07

TechCrunch AI

司法部支持xAI孟菲斯未许可燃气涡轮争议

·#ai-infrastructure

司法部支持xAI孟菲斯未许可燃气涡轮争议

美国司法部提交备忘录,在一宗针对xAI孟菲斯数据中心附近数十台未获许可天然气涡轮机的诉讼中站在xAI一边。司法部认为,如果这些涡轮机被迫停用,可能损害美国的国家、安全、经济安全和能源安全,并称Grok支撑着“关键任务”运作。

这起案件把AI基础设施直接与能源监管和国家安全论点联系起来,可能影响监管机构对高耗电数据中心的处理方式。它也显示,AI运营方正越来越多地把电力获取描述为军事和经济优先事项所必需。

美国司法部已介入并支持xAI,卷入一宗针对该公司在孟菲斯数据中心附近使用数十台未获许可天然气涡轮机的诉讼。该案由NAACP于4月提起,而NAACP早在去年6月就开始放风,称将就xAI在Colossus和Colossus 2园区使用“移动式”燃气涡轮机提起诉讼。根据Wired报道的司法部备忘录,如果该诉讼胜诉,将削弱“美国的国家安全、经济安全和能源安全”。司法部还表示,Grok是支持“关键任务”运作的四个AI模型之一,包括近期对伊朗的打击行动。xAI主张,这些装在拖车上的涡轮机在密西西比州空气污染法规下可在一年内享有豁免,因为它们仍属于可移动设备。

代表NAACP提起诉讼的南方环境法律中心则认为,联邦法律仍可将拖车式涡轮机视为固定污染源,因此应受监管。争议发生之际,xAI据称还在继续增加涡轮机数量,总数已升至57台。NAACP表示,自数据中心投运以来,当地空气质量恶化,而该地区本就属于全美污染最严重的地区之一。诉状还指出,PM2.5、甲醛和氮氧化物等污染物水平上升,这些物质都与严重健康风险相关。与此同时,xAI未来可能还会继续扩大供电设施;SpaceX的IPO文件显示,公司计划在未来三年再购买价值28亿美元的燃气涡轮机,其中至少20亿美元用于“移动式燃气涡轮机”。

xAI表示,这些装在拖车上的涡轮机在一年内可免于密西西比州空气污染法规约束;但南方环境法律中心认为,联邦法律仍可能将其视为固定污染源并纳入监管。该公司还新增了更多涡轮机,使总数达到57台,而诉讼称,这一做法加剧了本就污染严重地区的空气质量问题。

查看单篇正文查看原文
08

TechCrunch AI

ChatGPT 市占率首次跌破 50%

·#ai-assistants

ChatGPT 市占率首次跌破 50%

Sensor Tower 的 2026 年 AI 报告显示,ChatGPT 的市场份额首次跌破 50%,到 5 月底降至 46.4%。主要受益者是 Google 的 Gemini(27.7%)和 Anthropic 的 Claude(10.3%),而 Grok、Perplexity、DeepSeek 和 Meta AI 的份额都仍低于 5%。

这表明 AI 助手市场正在变得更激烈,用户不再只围绕一个默认应用停留,这是一个重要信号。它也说明,长期增长和商业化不仅取决于模型能力,还取决于分发能力、生态整合和用户信任。

在 ChatGPT 上线三年多之后,AI 助手已经成为面向大众的应用类别,但竞争格局正在快速变化。根据 Sensor Tower 的 2026 年《AI 报告》,ChatGPT 仍然是全球最受欢迎的助手,但它的市场份额首次跌破 50%。到 5 月底,ChatGPT 的份额已经降至 46.4%,而 1 月时还在 50% 以上。报告认为,这一变化主要来自 Gemini 和 Claude 的增长,其中 Gemini 升至 27.7%,Claude 升至 10.3%。Grok、Perplexity、DeepSeek 和 Meta AI 的份额都低于 5%。Sensor Tower 还指出,ChatGPT 是史上最快达到 10 亿月活用户的应用,而 OpenAI 在 2 月披露的周活用户为 9 亿。

即便如此,ChatGPT 仍以超过 11 亿月活用户保持领先,Gemini 为 6.62 亿,Claude 为 2.45 亿。报告显示,用户在不同助手之间切换的意愿正在增强,而且非产品因素也会影响使用行为:OpenAI 今年 2 月与美国国防部的协议曾带来明显的卸载激增。Gemini 的增长主要受益于与 Google 更广泛生态工具的整合,而 Claude 则因生产力场景口碑较好、用户留存接近 ChatGPT 而受到关注。Sensor Tower 还估计,2026 年上半年 AI 应用下载量将接近 23 亿次,消费额将超过 42 亿美元,而一年前的上半年支出只有 18.3 亿美元。与此同时,下载和支出的增长率都在放缓,这意味着市场可能正在走向成熟,但总量仍在继续上升。

尽管 ChatGPT 仍以超过 11 亿月活用户保持绝对领先,但 Sensor Tower 指出,用户正越来越多地在不同助手之间切换,而不是固定使用一个产品。报告还提到,OpenAI 今年 2 月与美国国防部的协议曾引发可测量的卸载激增,说明品牌立场和价值观匹配会影响采用情况。

查看单篇正文查看原文
09

The Verge AI

Anthropic 的 Claude 模型遭遇美国出口管制

·#ai-policy

Anthropic 的 Claude 模型遭遇美国出口管制

Anthropic 表示,美国官员要求其停止任何外国国民访问 Mythos 5 和 Fable 5,包括 Anthropic 自己的员工,公司一度考虑直接关闭这两款模型。事件在周五到周末之间迅速升级,Anthropic 高管随后与白宫和多位内阁官员通话,试图推翻这一指令。

这次事件是在测试美国政府是否会把出口管制工具用于限制先进 AI 模型本身,而不只是芯片等硬件。若这一做法被更广泛执行,可能重塑美国 AI 公司销售和分发前沿模型的方式,尤其会影响全球客户和国际员工。

Anthropic 在周五下午收到一份美国出口管制指令后,整个周末都在与特朗普政府进行高强度交涉。根据公司说法以及一位了解谈判情况的消息人士,政府要求 Anthropic 在 90 分钟内阻止任何外国国民访问 Mythos 5 和 Fable 5,包括并非美国国籍的员工。Anthropic 认为,如果照做,就只能把这两款模型完全关闭,因此高管们紧急前往华盛顿寻求推翻这一决定。CEO Dario Amodei 也加入了谈判,并直接与财政部长 Scott Bessent、商务部长 Howard Lutnick 以及国家网络总监 Sean Cairncross 通话。报道称,如果 Anthropic 不配合,白宫和商务部可能会考虑对该公司实施出口管制。Anthropic 表示,政府认为自己发现了绕过 Fable 5 安全护栏的方法,但公司称这只是一个范围有限的越狱手段,并且是由一家未具名机构分享给政府的。

Anthropic 还表示,他们审查了相关报告,认为其中展示的能力在其他模型中也已广泛存在,包括 OpenAI 的 GPT-5.5。另一些说法则认为,政府的担忧可能源于某个与中国有关联的团体接触到了该技术,不过 Anthropic 谈判中的消息人士称,这类中国相关传闻已流传数周,实际涉及的是另一家大型跨国电信公司。David Sacks 也发帖称,一家受信任的合作方在测试 Fable 时发现了该模型护栏的越狱方法。还有报道把焦点指向亚马逊 CEO Andy Jassy,称他在亚马逊内部红队测试后向美国政府提出了担忧,但这一说法又遭到一些独立测试人员的质疑。整体来看,这起事件说明前沿模型发布已迅速卷入国家安全和监管博弈,而出口管制可能会影响整个美国 AI 行业的未来走向。

Anthropic 表示,Mythos 5 和 Fable 5 基于更早的 Mythos Preview,而该预览模型被公司描述为“过于危险,不适合公开发布”。公司还称,所谓的越狱或绕过安全护栏只是狭窄、非普适性的,而且并非其模型独有,类似能力在其他系统中也已存在,包括 OpenAI 的 GPT-5.5。

查看单篇正文查看原文
10

Financial Times AI

·#ai-safety

Mistral被指易受虚假信息影响

《金融时报》报道称,爱沙尼亚研究人员发现,开源生成式模型在过滤虚假新闻方面不如其他模型,其中包括 Mistral。研究表明,这类模型可能更容易受到俄罗斯虚假信息的影响。

这一发现之所以重要,是因为开源模型正越来越多地被用于内容过滤和可信信息处理等关键场景。如果它们更容易被操纵,或在识别虚假新闻方面不够可靠,就会给平台、企业和公共信息系统带来风险。

《金融时报》报道称,爱沙尼亚研究人员发现,开源生成式 AI 模型在过滤虚假新闻方面存在弱点。研究特别把 Mistral 作为欧洲最知名的 AI 公司之一,纳入了表现不如其他模型的那一类。根据报道,这些模型在去除虚假新闻方面效果更差,这引发了人们对其处理虚假信息能力的担忧。研究结果表明,俄罗斯虚假信息可能更容易绕过基于这些模型构建的系统。

报道把这一问题放在开源 AI 的背景下来看,因为这类模型的权重和代码更公开,也更容易被广泛复用。开放性虽然能加速采用,但也会带来额外的可信度和安全挑战。报道并没有说 Mistral 本身是“独有的故障案例”,而是指出开源生成式模型这一类别在测试中可能更脆弱。对于 AI 开发者和部署方来说,这意味着在真实的信息处理链路中,可能需要更强的内容审核和事实核验层。

这份报道关注的是开源生成式模型,Mistral 是其中较知名的欧洲 AI 系统之一。文中强调的主要问题不是模型完全失效,而是在去除虚假新闻和抵御虚假信息策略方面表现更弱。

查看单篇正文查看原文
11

Google DeepMind News

DeepMind AI 工具加速英国规划审批

·#ai-in-government

DeepMind AI 工具加速英国规划审批

Google DeepMind 与英国政府正在试点一款由 Gemini 驱动的规划原型工具,帮助地方议会更快处理住宅类规划申请。目标是将审批决策时间缩短 50%,并且在 Barnet、Camden 和 Dorset 的早期试点之后,计划从 2027 年起向全国各地议会推广。

规划审批延迟是英国住房供应链中的重要瓶颈,而加快常规申请处理可以让规划人员把精力投入到更复杂的案件上。若试点成功,它不仅有助于英国政府到 2029 年建成 150 万套新住房的目标,也可能成为公共部门 AI 应用的示范案例。

Google DeepMind 表示,它正在与英国政府合作开发一款 AI 规划原型工具,目标是加快住宅类规划申请的处理速度。该项目被描述为利用 AI 改善公共服务的一部分,同时也服务于英国到 2029 年建成 150 万套新住房的目标。公司称,地方规划部门常常被大量纸质材料和行政积压拖慢,而新工具希望把申请决策时间缩短 50%。这个项目建立在英国政府 AI 孵化器推出的 Extract 工具之上,后者同样基于 Gemini,用来把旧的规划文件转成清晰的数字数据。DeepMind 正与英国政府、Google Cloud、Faculty,以及 Barnet、Dorset 和 Camden 的地方规划机构合作,共同开发这一原型。

该工具被设计成规划官员的“高水平助手”,主要负责数据提取和案件分析等繁重工作。对于常规案件,它可以整合信息、标记缺失数据、给出相关政策及引用、总结咨询信件,并起草最终决策报告的初稿。文章特别强调,规划官员始终保有最终控制权,他们会逐行审阅和修改工具输出,并保留批准或拒绝申请的权力。为了支持问责,该原型还会记录每一步操作,形成清晰的审计轨迹。经过在这三个地方议会的早期试点后,政府计划从 2027 年起将该工具推广到全国。

该原型旨在整合数据、识别相关的国家和地方政策、汇总公众咨询反馈,并起草最终报告的初稿。规划官员仍然是最终决策者,系统会记录每一步操作,以形成审计轨迹并支持问责。

查看单篇正文查看原文
12

Simon Willison

·#ai-policy

Fable 5 出口管制误读了防御性安全

一篇文章认为,Claude Fable 5 之所以被纳入出口管制限制,是因为一个安全相关提示被误判成了越狱。根据 Kate Moussouris 的说法,研究人员先让模型“检查代码中的安全问题”,随后又在包含已知漏洞和人为植入漏洞的代码上使用了“修复这段代码”这一提示。

这场争议凸显了 AI 安全政策与日常防御性编码、漏洞修复之间的冲突。如果能够帮助发现、修复并测试漏洞的系统也被视为过于危险,安全团队可能会失去直接有助于加固软件的工具。

这篇文章首先表示,前面的报道本来应该直接去看一手来源,而不是依赖《The Atlantic》的转述。随后它引用 Kate Moussouris 的说法,确认触发出口管制行动的所谓“越狱”提示,其实只是“修复这段代码”。据描述,研究人员把包含已知 CVE 的开源代码,以及带有故意植入漏洞的新代码,交给 Claude Fable 5、Mythos 和 Opus,并要求它们检查代码中的安全问题。Fable 5 拒绝了这一请求。之后,研究人员把提示改成“修复这段代码”,并通过一个多步骤、手工介入的流程,把模型输出转成用于测试补丁的脚本。

Moussouris 认为,这并不算真正意义上的越狱,因为编程模型本来就应该帮助修复漏洞,而安全漏洞正是最重要的一类 bug。她指出,防御者需要 AI 帮忙在文件中找出 bug、解释修复为什么重要,并编写测试来验证补丁是否有效。她的观点是,如果剥夺这种能力,模型反而会在安全团队每天都要做的防御任务上变得更弱。文章最后强调,决策者可能已经被“能制造网络攻击的模型尤其危险”这种叙事影响,从而误把能帮助保护代码的模型也一并限制掉。

据称,研究人员使用了带有已知 CVE 的开源代码,以及包含人为植入漏洞的新代码,然后再通过手动流程把模型输出转成用于测试补丁的脚本。核心反对意见是,让模型解释修复原因并编写测试,本来就是常规的发现、修复、测试流程,而不是绕过安全护栏。

查看单篇正文查看原文
13

TechCrunch AI

Respond.io 融资 6250 万美元扩展 AI 消息业务

·#ai-agents

Respond.io 融资 6250 万美元扩展 AI 消息业务

总部位于马来西亚的 Respond.io 完成了由 Camber Partners 领投的 6250 万美元 B 轮融资,Endeavor Catalyst 和现有投资者也参与其中。公司表示其年度经常性收入已达到 3500 万美元,并且同比增长 169%,接下来将把这笔资金用于增长和并购。

这笔交易表明,AI agent 驱动的客户消息平台正在成为一个重要的 SaaS 赛道,尤其适合依赖对话促成交易的企业。它也说明一家来自马来西亚的平台正在挑战长期由邮件和电话主导的北美、欧洲传统软件厂商。

Respond.io 于 2017 年成立,最初的目标很直接:帮助企业跟上客户从邮件和网页表单转向消息应用的变化。公司由 Gerardo Salandra、Hassan Ahmed 和 Iaroslav Kudritskiy 在香港创办,2019 年将总部迁至吉隆坡。如今,它将自己定位为面向中大型 B2C 企业的客户对话管理平台。平台支持 WhatsApp、Instagram、TikTok、Messenger、Line、Telegram、WeChat、电话和网页聊天等多个渠道。其 AI agent 可以自动处理大量客户咨询、筛选潜在客户,甚至在无需人工介入的情况下完成销售。

Respond.io 表示,公司目前的年度经常性收入达到 3500 万美元,同比增长 169%,利润率为 30%。该公司刚刚完成由 Camber Partners 领投的 6250 万美元 B 轮融资,此前它在 2022 年完成过 700 万美元 A 轮融资。联合创始人兼 CEO Gerardo Salandra 说,这笔新资金将用于招聘、自然增长以及并购,包括收购可与现有生态系统整合的技术,或拥有客户基础、适合欧洲和北美市场的团队。他还确认,公司已经在与几家潜在收购对象进行谈判。公司认为,即使 AI 能力越来越强,它凭借数据规模、产品定位和计费方式仍然具备优势。

Respond.io 每季度处理 20 亿条消息,并采用按对话量计费而不是按席位计费,这意味着即使更多由 AI 自动回复,也不会像按席位收费的软件那样压缩收入。它的核心客户是医疗、汽车、零售、教育和旅游等行业的中大型 B2C 企业。

查看单篇正文查看原文
14

The Decoder

微软或将 Copilot Cowork 改为按量计费

·#microsoft-copilot

微软或将 Copilot Cowork 改为按量计费

据报道,微软正在考虑将 Copilot Cowork 从固定费率改为按使用量计费。与此同时,公司还在评估在 Azure 上提供一个可选的、自托管且经过微调的 DeepSeek V4 后端,作为更低成本的模型选择。

这样的定价变化会明显影响企业为 AI 助手做预算的方式,尤其是那些使用量高且波动大的团队。如果微软真的增加一个更便宜的模型选项,这也可能表明行业正在转向让客户根据成本和工作负载来选择 AI 后端,而不是只使用单一默认模型。

微软据称正在为 Copilot Cowork 规划两项重要调整。第一,公司正在考虑把定价方式从固定费率改为按使用量计费。第二,公司可能会在 Azure 上提供一个自托管、经过微调的 DeepSeek V4 版本,作为更便宜的模型后端选项。相关消息来自 Axios,报道还称微软可能会在未来几周内作出最终决定。Copilot 事业部执行副总裁 Charles Lamanna 对 Axios 表示,固定定价并不适合那些每周会执行数百个任务的重度用户,因为成本会迅速上升。

微软此前已经对 GitHub Copilot 做过类似调整,把它改成按使用量计费。报道还提到,Copilot Cowork 目前依赖 Anthropic 的 Claude 技术,而这类强调代理式推理的模型会消耗大量 token,因此成本更高。微软似乎也在借此呼应 CEO Satya Nadella 本周发布的一篇博文,即企业应该能够为不同的用例和成本选择并调优不同的 AI 模型,而 AI 本身是一门消费型业务。由于 DeepSeek 是中国 AI 模型,这一选择在美国可能引发争议,但微软强调该选项将是可选的,并且客户数据会完全留在微软的云中。

Copilot Cowork 目前依赖 Anthropic 的 Claude 技术,而微软表示,这类强调代理式推理的模型会消耗大量 token,因此成本较高。微软称,任何 DeepSeek 选项都将是可选的、完全托管在 Azure 上,并经过针对偏见问题的安全措施定制。

查看单篇正文查看原文
15

The Decoder

柏林法院认定AI概览只是搜索格式

·#ai-search

柏林法院认定AI概览只是搜索格式

柏林一家法院裁定,Google 的 AI Overviews 只是对第三方内容进行汇总的新型搜索结果格式,而不是 Google 自己的原创陈述。法院认为,用户能够看出系统是在整合其他来源的信息,而且 Google 对这些文字没有“决定性影响”。

这项裁决之所以重要,是因为它与慕尼黑法院不久前的判决方向相反,说明德国法院目前仍在争论 AI 搜索摘要到底是平台自己的陈述,还是仅仅是一种展示格式。这个区分会直接影响当 AI 摘要出错,或者引发商标与竞争争议时,究竟谁需要承担责任。

柏林一家法院裁定,Google 的 AI Overviews 应当被视为一种新的搜索结果格式,而不是 Google 自己创作的原创内容。法院认为,这一功能只是把第三方网站上的信息整合起来,普通用户会理解为搜索结果的汇总,而不是搜索引擎自己的陈述。法院还表示,Google 对这些内容并没有达到可将其视为独立主张所需的“决定性影响”。这起争议源于一家香水公司的诉讼,因为 AI 生成的搜索结果把其受保护的品牌名称与更便宜的仿冒品并列展示,并链接到了销售这些商品的网站。法院没有把这认定为商标侵权,而是认为搜索结果只是在呈现网上原本就能找到的信息。

该判决出现在慕尼黑法院就另一宗 AI 摘要案件作出相反结论后的几天内。慕尼黑案中,Google 的 AI 曾把两家出版商错误地与欺诈计划联系起来,法院认定 Google 需要承担责任,因为这些说法并不在链接来源中,而且 Google 对算法拥有控制权。该法院也拒绝了“用户自己可以去核实来源”的说法,认为这些摘要属于独立内容。两项裁决共同表明,德国法律对于 AI 生成搜索摘要在责任上应如何定性,仍然没有统一答案。

柏林这起案件源于一家香水公司的诉讼:搜索结果把其受保护的品牌名称与更便宜的仿品放在一起,并链接到这些商家网站。与之相对,慕尼黑法院曾认定 Google 要为 AI 摘要中的虚假内容负责,因为这些摘要把出版商错误地与欺诈行为联系起来,而且相关说法并不存在于引用来源中。

查看单篇正文查看原文
16

The Decoder

基准测试AI对俄罗斯宣传的易感性

·#ai-safety

基准测试AI对俄罗斯宣传的易感性

爱沙尼亚语言研究所发布了一项基准测试,用于衡量60个AI语言模型对俄罗斯宣传的反应。该测试包含三种语言、75个问题和14种宣传叙事,并以中性、偏置和操纵性三种提示方式提问,答案按1到5分评分。

这项基准为AI安全和虚假信息研究提供了一个更系统的方法,用来比较模型在不同语言和提示方式下如何应对宣传内容。结果显示,各模型对操纵性内容的鲁棒性并不一致,这对多语言系统的用户、开发者和部署者都很重要。

爱沙尼亚语言研究所发布了一项基准测试,用来衡量AI语言模型对俄罗斯宣传的易感程度。测试对象共有60个模型,覆盖三种语言、75个问题,并围绕14种宣传叙事展开。每个问题都分别以中性、偏置和操纵性的方式提问,以观察措辞变化是否会影响模型表现。答案按照1到5分进行评分,分数越低,代表模型越容易重复俄罗斯的说法。

Claude Opus 4.5 被用作校准后的评估模型,整个基准还得到了 Propastop 虚假信息专家的验证。报道显示,Anthropic 的 Claude 系列模型排名最高,其后是 Nvidia 的 Nemotron 3 和 Alibaba 的 Qwen 3.6 Plus。Mistral 的模型,包括较新的 Medium 3.5,落在排名的后三分之一。文章强调,测试过程中模型不能使用网页搜索或其他工具,因此结果反映的是模型自身对宣传内容的抵抗力,而不是其借助外部信息核验事实的能力。

该测试使用 Claude Opus 4.5 作为校准后的评估模型,并由 Propastop 的虚假信息专家进行验证。测试过程中模型不能使用网页搜索或其他工具,因此该基准衡量的是模型自身抵御宣传的能力,而不是借助外部来源进行事实核查的能力。

查看单篇正文查看原文
17

The Verge AI

高通发布面向智能眼镜的 Snapdragon Reality Elite

·#qualcomm

高通发布面向智能眼镜的 Snapdragon Reality Elite

高通在 Augmented World Expo 上发布了 Snapdragon Reality Elite,这是其面向智能眼镜和头显的最新 XR 芯片。公司表示,与上一代 XR 芯片相比,它的 GPU 提升 60%,CPU 提升 30%,NPU 性能最高提升 160%。

这款芯片预示着下一代智能眼镜将拥有更强的图形能力和更重的 AI 负载处理能力,同时不会像以前那样迅速耗尽电量。对于 XR 开发者以及 Meta、Google 这类设备厂商来说,这意味着更接近真正可全天佩戴的显示眼镜。

高通发布了 Snapdragon Reality Elite,这是一款面向下一代智能眼镜和其他 XR 设备的新芯片。该消息是在 Augmented World Expo 上正式宣布的,不过这颗芯片其实已经在上个月 Google I/O 上的一台演示设备中出现过,当时 Xreal 和 Google 展示了即将到来的 Aura 眼镜,但并没有公开说明所用处理器。现在看来,那台原型机使用的就是高通这颗新芯片。根据高通的说法,Reality Elite 在性能上实现了全面提升,其中 GPU 提升 60%,CPU 提升 30%,NPU 性能最高提升 160%。这颗芯片还支持单眼 4.4K 分辨率、90 帧每秒,有助于提升沉浸式 XR 体验中的画面细节和运动流畅度。

高通同时表示,续航最高可提升 20%,而且由于能效更高,在高负载下设备温度最多可比上一代 XR 芯片低 12 摄氏度。文章认为,这些升级有助于让眼镜在承载更强 AI 功能的同时,保持更轻便、更耐用。报道还指出,高通是在为 Meta 和 Google 这类合作伙伴的需求定制芯片,而 Reality Elite 更可能用于带显示屏、并且强调 AI 的智能眼镜。与之相对,高通今年早些时候推出的 Snapdragon Wear Elite 则更可能用于纯音频智能眼镜。整体来看,这意味着接下来几个产品周期里,AI 可穿戴设备可能会变得更强,但电池、体积和散热问题仍然是行业必须解决的核心难题。

高通表示,这颗芯片支持单眼 4.4K 分辨率、90 帧每秒、较低延迟,并可带来最高 20% 的续航提升;在高负载下,设备温度据称最多可比上一代 XR 芯片低 12 摄氏度。Reality Elite 似乎更适合带显示屏、并且强调 AI 功能的眼镜,而高通的 Snapdragon Wear Elite 则更可能用于纯音频可穿戴设备。

查看单篇正文查看原文
18

Ars Technica AI

Anthropic 暂停 Claude Agent SDK 计费变更

·#anthropic

Anthropic 暂停 Claude Agent SDK 计费变更

Anthropic 已在原定于 6 月 15 日生效之前,暂停了 Claude Agent SDK 计划中的按 token 计费变更。现在,用户暂时仍可继续使用现有订阅下的用量限制,而不是转为单独的 API 费率计费。

这件事之所以重要,是因为这一变更原本会显著提高重度 Claude Agent SDK 用户的成本,其中也包括许多第三方应用和自动化编程工具。此次暂停虽然给开发者和重度用户带来了短期缓解,但也表明 Anthropic 仍在调整订阅与智能体工作负载的定价方式。

Anthropic 上个月宣布了一项计费变更,这本会让重度使用 Claude Agent SDK 的用户成本大幅上升,尤其是那些依赖自动化和第三方应用的人。根据 5 月 13 日公布的原始方案,Agent SDK 的使用将被视为与普通 Claude 使用分开的流量,普通 Claude 指的是聊天界面和官方 CLI。到 6 月 15 日,这类外部 SDK 使用原本要按照 Anthropic 当时的 API 费率计费,而订阅用户只会得到一个与订阅价格等额的月度额度。这样一来,现行模式将被替换掉;现行模式下,Agent SDK 的使用只受当前 Claude 订阅档位对应的每周上限约束。对于经常运行大量提示词或智能体工作流的重度用户来说,这些订阅上限通常比直接按 API 付费宽松得多。

Anthropic 在周一表示,已经暂停这些变更,并在支持页面上更新说明称“目前没有任何变化”。公司还表示正在调整方案,以更好支持用户如何基于 Claude 订阅进行构建,一些用户也收到了类似邮件。此举发生在开发者反弹之后,也紧跟着 GitHub Copilot 自己切换到按 token 计费之后的用户抱怨。与此同时,Anthropic 还在准备可能的 IPO,这说明公司仍在权衡产品慷慨度、算力容量和长期商业化之间的平衡。

此次被暂停的方案原本会把 Claude Agent SDK 的使用,包括第三方应用和非交互式的 `claude -p` 命令,与普通的 Claude 聊天或官方 CLI 使用分开计费。Anthropic 表示正在“更新计划,以更好地支持用户如何基于 Claude 订阅进行构建”,但用户不应假设当前较宽松的额度会一直持续下去。

查看单篇正文查看原文
19

Ars Technica AI

Pentagon boasts of using AI to write reports mandated by Congress

·#generative-ai

Pentagon boasts of using AI to write reports mandated by Congress

The Pentagon says it is using generative AI tools to draft congressionally mandated reports, highlighting broader adoption of AI across the U.S. Department of Defense.

Interesting policy-and-AI development: it shows government adoption of generative AI for mandated reporting, which is notable for public-sector automation and oversight, but it appears to be more of an operational use case than a technical breakthrough. No discussion comments were provided to assess community reaction or debate quality.

The US Department of Defense has a lot of congressionally mandated homework to do every year involving hundreds of required reports on various national security topics. But Pentagon officials have been proudly describing a new shortcut—using generative AI tools to write such reports for Congress. Pentagon Chief Technology Officer Emil Michael highlighted AI-generated reports to Congress as a key example of how the Department of Defense—stylized as the Department of War under the Trump administration—has adopted generative AI during an event hosted by the Hudson Institute think tank in Washington, DC, on June 12.

查看单篇正文查看原文
20

Financial Times AI

·#ai-disruption

私募股权担忧 AI 冲击法律与会计投资

那些重金投资专业服务企业的私募股权公司正在警告,AI 的快速进展可能会冲击它们在法律和会计领域的投资。《金融时报》报道称,收购基金如今面临技术驱动的压力,而这两个行业长期以来一直被视为稳定的现金流来源。

如果 AI 进一步自动化法律和会计公司的大量常规工作,私募股权在收购这些业务时依赖的收入模式可能会被削弱。这对投资者、企业所有者以及法律和审计服务从业者都很重要,因为定价、用工和盈利能力都可能发生变化。

《金融时报》报道称,拥有专业服务公司的私募股权老板们正越来越担心 AI 会冲击他们的投资。收购基金之所以大量资本投入法律和会计业务,是因为这些公司传统上能带来稳定的经常性收入和可预测的利润率。然而,AI 的进展正在引发新的疑问:其中有多少工作可以被自动化,或者至少被明显加速。对于那些价值主要来自劳动密集、重复性任务的行业,这种担忧尤其明显。

法律服务和会计都高度依赖文件审查、分析以及标准化工作流程,因此很容易受到 AI 提升效率的影响。文章将这一现象描述为对专业服务并购和整合投资逻辑的更广泛冲击。换句话说,原本看起来以人力专业能力为基础、相对稳定的业务,可能会因为技术改变客户愿意支付的价格以及所需员工数量,而变得更难估值。报道并没有描述某个全新的 AI 工具,而是在传递投资者对这些公司经济模式正在变化的结构性警告。

这篇报道把问题描述为对收购基金既有投资的威胁,而不是某个具体产品发布或技术突破。检索到的背景信息显示,这种担忧并非空穴来风:生成式 AI 已经被认为可能改变律师事务所的计费方式,并简化会计与审计流程。

查看单篇正文查看原文
21

Simon Willison

·#local-llms

Gerganov 称赞 Qwen3.6-27B 的本地编程能力

Georgi Gerganov 表示,Qwen3.6-27B 是一款非常适合本地编程任务的模型,并且他在过去一个半月里几乎每天都在使用它。他还介绍了自己一个轻量级的离线工作流:使用精简后的 pi agent,配合 `pi -nc --offline` 和一段简短的系统提示词。

这是一位受人尊敬的维护者对本地大模型的实际认可,说明本地 LLM 已经开始能胜任真实的日常编程辅助,而不只是演示。它也体现了一个更大的趋势:开发者工具正朝着可离线运行、保护隐私、并能在 M2 Ultra 或 RTX 5090 这类高性能本地硬件上使用的方向发展。

在 Simon Willison 引用的一条 Hacker News 评论中,Georgi Gerganov 说他“100% 确认”Qwen3.6-27B 是一款很强的本地编程模型。他表示,过去大约一个半月里,自己几乎每天都会在 M2 Ultra 机器或 RTX 5090 设备上使用它。使用场景并不是炫目的基准测试,而是 ggml-org 里一些小型、日常的维护任务。他还说,如果自己不用花那么多时间审查 PR,他本来会更频繁地使用这个模型。

Gerganov 介绍,自己当前的配置非常轻量:使用被尽量精简的 pi agent,并通过 `pi -nc --offline` 方式运行。他还配合 llama.cpp 仓库里的一个简短系统提示词,让模型的输出更贴近自己的工作风格。这段话更像是一次实际经验分享,而不是正式评测,但它提供了一个开发者在日常维护工作中有效使用本地模型的具体例子。

Gerganov 说,他主要把这个模型用于 ggml-org 里的小型、琐碎任务,而审查 PR 仍然占据他很多时间。他提到的配置刻意保持极简,使用离线运行方式和简短提示词,以便更贴合自己的工作风格。

查看单篇正文查看原文
22

TechCrunch AI

Plaud凭AI记事设备突破1亿美元ARR

·#ai-hardware

Plaud凭AI记事设备突破1亿美元ARR

Plaud表示,随着公司出货量超过200万台AI记事设备,其订阅业务已突破1亿美元的年化收入运行率。公司还推出了新产品和软件功能,包括Plaud Pro、Plaud Pin S、可基于系统音频记笔记的桌面应用,以及面向企业的Plaud Teams。

这使Plaud成为少数可见的AI硬件成功案例之一,说明无屏设备结合订阅模式也能形成可观的经常性收入。它还表明,专业用户和企业对能记录会议、并将实时对话转成摘要和行动项的工具存在明确需求。

Plaud正试图在一个真正的AI硬件成功案例并不多见的市场里脱颖而出。该公司生产面向经常开会的专业人士的AI记事设备,并表示自己已经售出超过200万台设备,其中包括Plaud Pin以及可贴在手机背面的卡片式设备。公司还称,其订阅业务的年化收入运行率已经超过1亿美元。Plaud的核心观点是,无屏设备会鼓励人们先进行真实对话,之后再由设备生成摘要和行动项,而不是像很多AI产品那样依赖从记忆中输入提示词。CEO Nathan Xu表示,公司打造的是“后屏幕时代的交互界面”,并称市场已经验证了这一思路。在产品层面,Plaud去年推出了179美元的Plaud Pro,今年又发布了价格相近的Plaud Pin S。

公司也在加快软件建设,包括一个可通过系统音频生成类似Granola风格笔记的桌面应用,以及面向企业并支持共享记忆的Plaud Teams。Plaud表示,购买硬件的用户可获得300分钟免费转写时长,但对于会议很多的用户来说,这个额度很快就会耗尽。Xu告诉TechCrunch,接近一半的设备用户会从基础套餐升级到Pro或Unlimited套餐,这也是公司收入的主要来源。Plaud目前还没有单独销售纯软件订阅,因此付费使用通常依附于设备拥有者。该公司在会议记事硬件领域还面临Anker、Viaim、Vibe和Pocket等竞争对手。

Plaud表示,用户可免费获得300分钟转写时长,但会议较多的用户通常会很快用完,并需要购买月度、年度或附加套餐。公司称,接近50%的设备用户会从基础方案升级到Pro或Unlimited档位,而且目前还没有单独销售纯软件订阅。

查看单篇正文查看原文
23

TechCrunch AI

Probably 融资 900 万美元打造更可靠的 AI

·#llm-reliability

Probably 融资 900 万美元打造更可靠的 AI

专注于 AI 可靠性的初创公司 Probably 从 Andreessen Horowitz 获得了 900 万美元种子轮融资。该公司表示,它正在构建一种系统,旨在在幻觉和事实错误到达用户之前就将其拦截。

幻觉仍然是大模型在高风险场景中落地的主要障碍之一,因此提升事实可靠性的工具可能会扩大 AI 的安全应用范围。如果 Probably 的方法有效,它可能减少人工纠错成本、降低算力开销,并让 AI 更适合对精度要求很高的工作。

随着大语言模型能力越来越强,幻觉问题仍然很难彻底消除。TechCrunch 报道称,即使是最聪明的模型也会出现事实错误,而行业仍在探索最可靠的检测方式。Probably 想用更严格的可靠性层来解决这个问题,而不是单纯依赖更强大的模型。该公司刚刚从 Andreessen Horowitz 融得 900 万美元种子轮资金。创始人 Peter Elias 表示,他们的目标是在错误到达用户之前就将幻觉和简单事实错误拦截掉,并将准确率提升到接近确定性系统常见的 99.99%。

Probably 的首款产品是一款数据科学工具,可以从复杂数据集中快速生成答案,并附带引用和审计轨迹。为了让这些输出更可信,公司构建了一个 Elias 口中的“数据科学机甲”,即一套复杂的护栏系统,由确定性验证器检查 LLM 的初步回答,并把不匹配数据集的结果退回重做。Elias 说,LLM 还会针对这个验证器进行训练,而这种设计通过减少歧义,让模型不必“费很大劲”去做对事情。公司表示,当前版本运行在比前沿模型弱四个等级的模型上,因此可以在本地硬件上运行,从而大幅降低 token 成本。Elias 认为,这套引擎未来还能扩展到会计、医疗服务等对精度要求很高的场景。

Probably 的首款产品是一款数据科学工具,可从复杂数据集中快速生成答案,并附带引用和审计轨迹。该系统使用确定性验证器来拒绝与数据集不匹配的回答,公司称 LLM 也会针对该验证器进行训练,因此整个系统可以在比前沿模型弱四个等级的模型上运行,甚至能在本地硬件上部署。

查看单篇正文查看原文
24

ZDNET AI

如何为你的庭院选择合适的割草机器人

·#robot-mowers

如何为你的庭院选择合适的割草机器人

ZDNET 的专家认为,购买割草机器人时,应该优先看庭院布局、地形和导航方式,而不是只看品牌口碑。文章对比了有线边界、GPS/NetRTK 和视觉导航三种系统,并说明了它们分别适合哪类庭院。

割草机器人仍然是一笔不小的开销,而导航方式选错,哪怕是高端机型也可能非常难用。这样的建议能帮助买家把快速增长的家居自动化产品,真正匹配到自己的庭院条件上,从而节省成本并减少安装麻烦。

ZDNET 这篇割草机器人指南的核心观点很明确:比起品牌,庭院本身更重要。作者认为,割草机器人价格不低,买家不应该只因为宣传或口碑就直接下单。真正决定适不适合的,是庭院布局、障碍物、地形,以及机器采用的导航技术。文章结合了作者大约三年的实际测试经验,把建议整理成一份实用清单。作者强调,割草机器人是为特定环境设计的,并不是所有庭院都能通用。

第一个关键选择就是导航方式。有线边界系统需要在草坪周围埋设边界线,这是最早的方案,优点是可靠,而且现在相对便宜,但安装非常费工夫。GPS/RTK 和更新的 NetRTK 方案依靠卫星定位和固定校正站来保持地图精度,误差可控制在几英寸内,因此更适合大庭院,不过价格更高,而且需要较开阔的天空视野。最新的一类是视觉导航,它把 LiDAR、摄像头和 AI 结合起来,通常只需接通电源并在应用中完成地图设置,安装最简单。文章最后的结论是:选割草机器人时,最重要的是让机器匹配你的庭院,而不是盲目追求知名品牌。

文章指出,有线边界系统是最老也是最可靠的方案,但安装边界线很费工夫。GPS/NetRTK 更适合较大的庭院,新机型甚至可能不需要独立天线;而视觉导航结合了 LiDAR、摄像头和 AI,安装最简单,但在真实环境中也会有自身限制。

查看单篇正文查看原文