专用小模型开始正面挑战前沿 API
Dharma AI 表示,一个经过任务对齐的 30 亿参数模型在结构化 OCR 基准上胜过多家商业前沿 API,而且成本低约 50 倍,强化了“专门化优于规模”的采购逻辑。
AI 日报
今天的 AI 新闻主线非常清晰:专用模型和场景化工具正在挑战“越大越好”的旧逻辑,而监管、商业披露和劳动力冲击也同步升温。无论是企业采购、产品落地,还是政策制定,AI 正在从能力竞赛转向现实世界的执行竞赛。
Overview
从 40 条资讯中筛选出 16 条
今天的 AI 新闻主线非常清晰:专用模型和场景化工具正在挑战“越大越好”的旧逻辑,而监管、商业披露和劳动力冲击也同步升温。无论是企业采购、产品落地,还是政策制定,AI 正在从能力竞赛转向现实世界的执行竞赛。
Dharma AI 表示,一个经过任务对齐的 30 亿参数模型在结构化 OCR 基准上胜过多家商业前沿 API,而且成本低约 50 倍,强化了“专门化优于规模”的采购逻辑。
OpenAI 的 PowerPoint 插件和 Codex Appshots 直接进入日常工作流;Google 的 AI 眼镜和 WeatherNext 则说明产品与科学工具都在向“可用”而非“概念”靠拢。
OpenAI 的亏损与收入数据、AI 初创公司夸大 ARR 的争议,以及 SpaceX S-1 的宏大估值叙事,都在提醒市场:AI 时代的数字尤其需要被拆解。
加州开始以再培训和雇佣激励应对 AI 失业,特朗普据报撤回 AI 安全命令,而 FTC 和 NTSB 则分别在广告欺诈与隐私保护上出手。
Cloudflare CEO 认为 AI 会压缩中层管理与合规岗位;Spotify 与 UMG 的 AI 音乐授权,则让“低门槛生成”与“内容稀释”争议进入主流平台。
从驾驶舱语音重建到文学奖作品疑似 AI 写作,这一天的新闻都在说明:模型能力提升后,最难的问题往往变成伦理、署名和边界控制。
AI 行业正同时经历三种变化:技术上更强调专用化与可用性,商业上更强调真实收入与可持续性,治理上更强调隐私、劳动与安全边界。今天的故事共同说明,AI 的竞争焦点已经从“模型有多强”转向“谁能在具体任务里更便宜、更稳、更合规地交付价值”。
Hugging Face 博客中的 Dharma AI 文章显示,一个专门优化的 30 亿参数模型 在企业结构化 OCR 任务上可以优于多家商业前沿 API,而且成本约低 50 倍([1990])。这类结果强化了一个趋势:在明确任务上,任务对齐和专门化可能比单纯堆参数更重要。
Google I/O 展示的 AI 眼镜、WeatherNext 以及相关科学 AI 叙事,都在指向“可用工具”而非“宏大愿景”——前者是把导航、翻译和小组件直接放进镜片显示,后者则是在天气预警等具体问题上交付效果([1988][1994])。与此同时,OpenAI 也把 AI 更深地嵌入办公与开发流程:PowerPoint 插件、Mac 版 Codex 的 Appshots,都是把模型能力直接接到日常工作的上下文里([2001][2003])。
OpenAI 第一季度数据、AI 初创公司夸大 ARR 的争议,以及 SpaceX 的 S-1 叙事,都反映出市场正在重新校准“故事”和“数字”的关系([1996][1993][1995])。一边是收入和用户增长,一边是烧钱、估值和口径争议,投资者对 AI 公司财务指标的容忍度显然正在下降。
加州推出美国首个由州长签署、专门针对 AI 失业风险的行政命令,特朗普则据报撤回了一项 AI 安全命令草案,显示 AI 政策正在在“保就业”“保安全”和“保竞争力”之间拉扯([1997][1998])。与此同时,NTSB 因 AI 重建驾驶舱语音而限制案卷访问,FTC 也因虚假 AI 广告定向服务对三家公司作出处罚,说明 AI 的隐私与诚信问题已进入执法层面([1989][1999])。
Cloudflare CEO 公开表示 AI 会取代“测量者”,把中层管理、合规和部分运营岗位推到风口浪尖;DeepSeek 则据报继续把 AGI 研究和开源优先于短期盈利;Spotify 与 UMG 的 AI 混音授权协议,则把生成式音乐正式推向主流平台内部([2000][2002][2005])。
今天的核心结论不是“AI 又进了一步”,而是AI 正在分化成一组更具体、更现实的商业和治理问题:什么任务该用小模型,什么工作会被自动化,什么指标值得信任,什么能力应该被监管。接下来市场、监管者和用户都将更少讨论抽象的 AGI,更频繁地讨论成本、权限、责任和结果。
Stories
Hugging Face Blog
Dharma AI 在 Hugging Face 博客中指出,一个专门优化的 30 亿参数模型在企业级结构化 OCR 任务上可以优于多家商业前沿 API,而且运行成本大约低 50 倍。文章基于 DharmaOCR——该团队在 4 月发布的一对专用小语言模型,以及配套的基准和论文。
这挑战了企业采购中的一个常见假设:最安全的选择总是最大的前沿模型。若专门化和任务对齐能够胜过单纯规模,采购方就可能通过选择更小的领域模型,同时获得更高质量和更低成本,而不必默认使用昂贵的通用 API。
Dharma AI 的这篇文章主张,在企业 AI 采购中,专门化往往比规模更重要。文章以 DharmaOCR 为基础,这是该团队在 4 月发布的一对用于结构化 OCR 的专用小语言模型,并且同时发布了基准和论文,相关内容也都在 Hugging Face 上公开。作者表示,在他们的基准测试中,一个经过微调流程优化的 30 亿参数模型,击败了他们测试的所有商业前沿 API。作者还称,这个表现最好的模型同时也是运行成本最低的,成本优势大到足以在有实际规模的采购中改变决策计算。
文章据此认为,企业过去默认选择最大的前沿模型,这一做法现在并不总是合理。作者解释说,过去这种默认是有道理的,因为 GPT-4、Claude 3、Gemini 1.5 等模型通常在相关基准上领先,而且早期的 scaling laws 也表明,能力会随着参数量和训练算力上升。文章进一步指出,变化的关键在于,如今比较对象里加入了专用模型,这些模型的训练历史被刻意拉近到具体生产任务。作者把这次 OCR 结果视为目前最严格测量到的一个例子,说明专门化模型研究中可能正在出现更广泛的规律。
这项对比发生在一个特定领域的结构化 OCR 基准上,文中称这款专用 30 亿参数模型在所测试的所有商业前沿 API 中表现最好,而且评估同时考虑了质量和运行成本。文章强调,该模型是通过微调把训练历史尽量靠近部署任务,因此作者认为参数规模不再是决定性变量。
Ars Technica AI

网民利用软件和AI工具,基于事故调查材料重建了驾驶舱语音,其中包括与UPS 2976航班调查相关的内容。作为回应,NTSB临时关闭了其在线事故案卷系统,正在审查这些公开材料。
这一事件表明,生成式和重建工具可以把公开的取证材料变成原本不应公开的隐私敏感音频。它可能改变交通调查机构发布证据的方式,以及政府如何在透明度与机组隐私法律保护之间取得平衡。
NTSB在发现网民利用AI和软件工具重建了致命货机事故中疑似最后时刻的驾驶舱对话后,临时暂停了其在线案卷系统的访问。该机构表示,它注意到图像识别和计算方法的进步,已经让人们能够根据调查材料中公开的声谱图像,重建驾驶舱语音记录的大致内容。相关材料包括对UPS 2976航班空难的持续调查文件。该航班于2025年11月4日在肯塔基州路易斯维尔起飞后不久坠毁,一架UPS MD-11F货机因结构失效而在离地时发动机物理脱落。
机上三名飞行员,包括一名备份飞行员,全部遇难,地面上还有12人死亡、23人受伤。NTSB称其在线案卷系统目前“暂时不可用”,因为该机构正在审查那些促成音频重建的公开资料。NTSB同时强调,自己不会公开驾驶舱音频记录。此事凸显了现代AI重建技术与1990年联邦隐私法规之间的冲突,该法规禁止公开发布驾驶舱语音或视频记录内容。
NTSB表示,图像识别和计算方法的进步,使人们能够根据调查文件中的声谱图像重建驾驶舱语音记录的大致内容。1990年的联邦法律禁止NTSB公开发布驾驶舱语音或视频记录内容,且该机构强调自己不会公开驾驶舱音频。
MIT Technology Review AI

在 Google I/O 上,Demis Hassabis 说人类正处于“奇点的山脚下”,但科学 AI 环节的核心却是 WeatherNext——Google DeepMind 的天气系统,它曾帮助提前预警飓风 Melissa 在牙买加的登陆。文章认为,这种并置说明 Google 正在更强调具体领域的实用 AI 工具,而不只是 AGI 式的宏大叙事。
这很重要,因为它揭示了 AI-for-science 的战略分叉:专门针对明确科学问题构建的工具已经带来可衡量的实际收益,而智能体系统则指向更自动化的未来。Google 选择的方向会影响研究人员、天气预报机构、药物研发项目,以及“AI 应该辅助科学还是逐步自己做科学”的更大争论。
在 Google I/O 上,Demis Hassabis 用了非常宏大的表述,称人类正站在“奇点的山脚下”。文章指出,这句话出现在活动收尾的科学 AI 环节,而这一部分真正展示的并不是未来主义愿景,而是 WeatherNext 的现实应用。这个系统据称曾提前预警去年飓风 Melissa 在牙买加的灾难性登陆,并可能帮助了一些人提前避险或加固住房。文章认为,这确实是有价值的现实成果,但并不能说明 AI 已经接近超级智能。相反,这场主题演讲暴露了 AI-for-science 的两种路线之间的张力。第一种路线强调为特定科学任务训练的专用模型,比如天气预测模型。
第二种路线则是基于 LLM 的智能体系统,未来可能在几乎没有人类监督的情况下执行研究项目。文章指出,后者正在推动当下大量 AI 热情,包括递归自我改进这类想法,也就是 AI 逐渐成为自身进步的主要驱动力。Google 高管 Pushmeet Kohli 近期在 Daedalus 上表示,AI 正从“帮助科学”走向“开始做科学”。不过,Google 仍在继续投入专用科学模型,包括 AlphaGenome、AlphaEarth Foundations,以及更新版 WeatherNext。与此同时,文章还认为 Google 的资源和注意力可能正在向智能体方向重新分配,因为编程能力对这些系统至关重要,而 Google 自己的编程工具又被认为落后于 Anthropic 和 OpenAI 等竞争对手。更广泛地看,整个行业也在向这一方向推进,OpenAI 还宣称其一个模型最近推翻了一个重要的数学猜想。
Google 并没有放弃专用科学模型:AlphaGenome、AlphaEarth Foundations 以及最新版本的 WeatherNext 都是在近期发布的,而且 AlphaFold 的蛋白质结构预测已被全球超过三百万研究人员使用。与此同时,公司似乎正在把人才和关注度转向智能体能力;据报道,诺奖得主 John Jumper 已转向 AI 编程工作,而 OpenAI 也在宣称其模型已对数学研究作出贡献。
TechCrunch AI

TechCrunch报道称,一些AI初创公司及其支持者可能正在通过把已签约但尚未真正实现的收入当作ARR来夸大数据。文章聚焦于Spellbook首席执行官Scott Stevenson在X上的一则爆款帖子,该帖子引发了创始人和投资人的广泛回应。
ARR是SaaS和初创融资中最重要的指标之一,因此被夸大的数据会扭曲投资判断、媒体报道和公司之间的比较。如果创始人普遍使用更激进的定义,例如CARR,就可能让炒作胜过真实客户采用,使AI市场更难被准确评估。
TechCrunch报道,在Spellbook联合创始人兼首席执行官Scott Stevenson公开指责许多AI初创公司使用“欺骗性指标”夸大增长之后,围绕AI创业公司收入披露的争论迅速升温。Stevenson在X上发文称,一些AI公司之所以看起来“收入爆表”,是因为它们在使用一种不诚实的指标,而世界上最大的一些基金还在支持这种做法,并借此误导记者做宣传。这个观点在AI创业圈内引发强烈反响,获得了200多次转发和评论,参与者包括投资人、创始人等。Clio联合创始人兼首席执行官Jack Newton告诉TechCrunch,Stevenson帮助揭示了某些公司的“坏行为”,并提到了Garry Tan关于正确收入指标的说明。随后,TechCrunch采访了十多位创始人、投资人和创业公司财务人士,试图判断ARR被夸大的现象是否真的普遍存在。多位匿名消息人士表示,公开场合夸大ARR确实很常见,而且在很多情况下,投资人也知道这些数字有水分。
文章指出,最常见的做法是把合同ARR,也就是CARR,直接当作ARR来报。ARR传统上指的是已签约客户的年度化收入,而“收入”通常意味着已经实际收到的钱;相比之下,CARR把已经签约但尚未上线的客户也算进去,因此更宽松,也更容易失真。一个投资人表示,他见过某些公司的CARR比ARR高出70%,但其中很大一部分最终并不会转化为真实收入。文章还引用了Bessemer Venture Partners 2021年的博客,说明CARR理论上应当考虑客户流失和降级购买,但TechCrunch强调,只要产品尚未真正部署,这个指标仍然可能误导。多位投资人告诉TechCrunch,他们知道至少有一家知名企业级创业公司宣布自己ARR超过1亿美元,但其中只有一小部分来自真正付费的客户,其余都来自尚未落地实施的合同,有些部署甚至可能需要很长时间。文章最后以一位前员工的未完信息收尾,暗示相关争议仍在继续发酵。
文章指出,主要手法是把合同ARR,也就是CARR,直接称作ARR,尽管CARR包含了已经签约但尚未上线的客户。TechCrunch表示,多位消息人士称这种做法在市场中很常见,一些投资人也承认,其他公司这样做往往只是为了不落后。
TechCrunch AI

TechCrunch 在 Google I/O 上上手体验了 Google 即将推出的 Android XR 眼镜,带镜片内显示的版本看起来已经接近可用。原型机展示了方向指引、翻译、小组件和 Gemini 驱动的操作等现实叠加信息,而 Google 也重申先推出的纯音频 AI 眼镜将于今年秋季上市。
这表明 Google 在面向消费者的智能眼镜上取得了实质进展,而且不再局限于纯音频助手,而是迈向带视觉信息的增强现实体验。若产品最终成功上市,它可能会影响 Android XR、可穿戴 AI 以及智能眼镜市场的竞争方向。
在 Google I/O 上,TechCrunch 短暂上手体验了 Google 即将推出的 AI 眼镜,这款产品同时具备音频功能和镜片内显示。该 Android XR 眼镜最早在去年的活动上公布,目标是在佩戴者视野中直接叠加有用信息,把内容覆盖到真实世界之上。Google 表示,它可以显示天气、步行导航、Uber 接送信息、实时翻译,以及用户甚至可以用 AI 设计出来的小组件。公司还提到,这些眼镜将兼容 iOS 和 Android 手机,而且音频版和未来的显示版都能使用。带显示的型号被定位为第一代纯音频眼镜之后的下一步,而纯音频眼镜据称会在今年秋季开始发货。Google 正与 Warby Parker、Gentle Monster 和 Samsung 合作开发这款眼镜,把自家的技术与这些品牌的镜框设计风格结合起来。TechCrunch 试用的原型机已经足够精致,能够开放给外部测试,但它仍然明显不是最终量产版本,因为 Google 希望借此更自由地测试显示硬件以及电池续航之间的取舍。演示版也缺少一些量产功能,例如检测眼镜是否被戴上或取下。
激活 Gemini 需要按住镜腿右侧两秒,设备会发出启动提示音,在原型机上这一操作还会同时启动摄像头。首次测试中,眼镜可以播放音乐,但由于现场非常嘈杂,难以准确判断音质,这也说明它并不适合替代高品质耳机,不过在户外散步、徒步或做家务时听歌是够用的。第二次测试中,记者按下拍照键拍摄了一张人物照片,显示屏是关闭状态,照片随后被传到手机和手表上。Google 还表示,之后可以通过长按来录制视频,但该功能在原型机上尚未开放测试。用户也可以直接让 Gemini 拍照并进行 AI 处理,比如把照片里的人“变成动漫角色”;图片会先发送到手机,再传到 Gemini 和 Nano Banana 服务器,最后返回编辑后的版本。在 Google I/O 现场,由于 Wi-Fi 负载很高,这一往返过程大约花了 45 秒。开启显示后,眼镜会出现一个简单的主页界面,说明这款产品虽然仍处在原型阶段,但已经非常接近可实际使用的形态。
这款带显示的眼镜是晚于纯音频型号的下一阶段产品,并由 Warby Parker、Gentle Monster 和 Samsung 共同参与开发。演示原型并不是最终量产设计:它缺少部分感知功能,Google 表示正式版本应能检测眼镜是否被戴上或取下,并允许用户选择在启动 Gemini 时是否同时开启摄像头。
TechCrunch AI

TechCrunch 的 Equity 播客讨论了 SpaceX 终于提交的 S-1 文件,以及其中令人震惊的数字,包括 28 万亿美元的总可服务市场和与火星殖民挂钩的薪酬方案。该文件还以一种叙事方式包装 SpaceX,似乎在为可能成为美国历史上最大 IPO 的估值目标铺路。
SpaceX 是科技和航天领域最重要的私营公司之一,因此它为 IPO 做准备可能会重塑人们对后期创业公司估值和资本市场承受力的预期。该文件也在测试投资者会在多大程度上接受雄心勃勃的长期叙事,尤其是当商业逻辑从发射服务一直延伸到火星殖民时。
TechCrunch 表示,SpaceX 的 S-1 终于来了,而这份文件讲述的故事已经远远超出了火箭本身。文章指出,这份文件里有整整 36 页的风险因素,说明即便是最具势头的公司,在进入公开市场时也必须写下大量谨慎说明。文件中还给出了一些与 SpaceX 规模相匹配、但极具野心的数据,包括 28 万亿美元的总可服务市场,以及与建立火星殖民地目标挂钩的薪酬方案。文章把这些内容视为一种估值叙事,而这种叙事可能让 SpaceX 成为美国历史上规模最大的 IPO。
Equity 播客的 Kirsten Korosec、Anthony Ha 和 Sean O’Kane 讨论了这份文件到底说了什么、遗漏了什么,以及这些数字和推理是否真的令人信服。节目对这件事的处理更像是对雄心与财务现实之间差距的衡量,而不是单纯的新闻播报。该期节目还简要提到了其他科技新闻,包括 NanoCo 拒绝 2000 万美元收购后以 1200 万美元种子轮融资来推进其安全版 Nano Claw 替代方案、Anthropic 以 3 亿美元收购 SDK 初创公司 Stainless,以及 Google I/O 上关于搜索变化的发布。总体来看,SpaceX 这一段强调的是:这份 S-1 不只是财务文件,也是在向投资者讲一个关于未来的故事。
文章提到,这份 S-1 文件包含长达 36 页的风险因素,但这些数字和假设是否足以支撑其暗示的估值仍不明确。播客主持人重点质疑的是文件没有说清楚什么,以及这些算术是否真的能与现实对上。
The Decoder

据报道,OpenAI 在 2026 年第一季度的调整后营业利润率为负 122%,这意味着即使剔除股权激励等项目后,公司每赚 1 美元收入仍亏损 1.22 美元。该季度收入约为 57 亿美元,ChatGPT 的周活跃用户均值为 9.05 亿,低于其 10 亿用户目标。
这些数据表明,OpenAI 的收入虽在快速增长,但支出增长更快,这对关注 AI 商业模式可持续性的投资者很重要。与 Anthropic 的对比也说明竞争正在加剧,而两家公司都被认为在为可能的 IPO 做准备。
据报道,OpenAI 在 2026 年第一季度每赚 1 美元就花掉 1.22 美元,即便已经剔除了股权激励和其他大型项目。根据报道援引的 The Information 数据,公司调整后营业利润率为负 122%。该季度总收入约为 57 亿美元,比 Anthropic 同期高出约 10 亿美元。报道称,这些增长主要来自 Codex 编码代理、企业销售,以及 ChatGPT 内部的早期广告测试。
尽管收入增长,ChatGPT 的周活跃用户均值只有 9.05 亿,仍未达到公司设定的 10 亿用户目标。报道还称,Anthropic 正在迅速缩小差距,其年化收入接近 450 亿美元,而 OpenAI 约为 300 亿美元。Anthropic 预计第二季度收入接近 110 亿美元,营业利润接近 6 亿美元。两家公司都被认为在考虑从第四季度开始推进可能的 IPO,因此它们的财务走势尤为值得关注。
报道称,OpenAI 的增长主要来自 Codex 编码代理、企业销售,以及 ChatGPT 内部的早期广告测试。尽管如此,OpenAI 的收入仍低于 Anthropic:后者的年化收入接近 450 亿美元,而 OpenAI 约为 300 亿美元;Anthropic 还预计第二季度收入接近 110 亿美元,营业利润约 6 亿美元。
The Decoder

加州州长加文·纽森签署了美国首个由州长发布、旨在保护工人免受AI驱动失业影响的行政命令。该命令要求州机构与研究人员、工会和AI行业合作,制定再培训、雇佣激励等劳动力市场应对措施。
这标志着针对AI岗位流失的讨论,开始转向州一级的具体政策应对。如果这一做法奏效,可能会影响各级政府如何支持面临自动化冲击的工人,并推动美国更广泛的AI劳工政策形成。
加州州长加文·纽森签署了一项被称为美国州长首个、专门针对AI相关失业风险的行政命令。该命令要求州政府机构与研究人员、工会以及AI行业合作,制定新的劳动力市场应对策略。具体措施包括:向那些选择保留员工、而不是用AI替代员工的公司提供补贴,以及扩大主要面向办公室员工的再培训项目。命令还要求审查“普遍基本资本”的概念,即让公民持有股票或基金份额,从而获得资产性收益。
纽森表示,传统失业保险不足以应对他预期中的AI冲击。他引用了包括Anthropic联合创始人达里奥·阿莫代伊在内的预测,称大约一半的办公室岗位可能在五年内消失。纽约时报还报道称,纽森批评了现行税制,因为它奖励自动化,却惩罚劳动者。这一举措让加州站到了AI驱动劳动力替代政策讨论的前沿。
这项命令提到,为保留员工而不是用AI替代员工的公司提供补贴,扩大面向办公室员工的再培训项目,并审查“普遍基本资本”的可行性。纽森还表示,传统失业保险不足以应对这一问题,并引用了未来五年大量办公室岗位可能消失的警告。
The Decoder

据报道,唐纳德·特朗普在原定签署前数小时取消了一项关于AI安全的行政命令。此次逆转发生在埃隆·马斯克、马克·扎克伯格和大卫·萨克斯的最后时刻介入之后,该命令预计将被重新起草。
这一事件表明,科技巨头能够在最高层面直接影响AI政策,尤其是在监管框架仍在形成之时。它也凸显了AI安全监管与“监管会拖慢美国对华竞争”的担忧之间持续存在的张力。
据多家媒体报道,唐纳德·特朗普在最后时刻取消了原定签署的一项AI安全行政命令。白宫此前已经向多家大型科技公司的负责人发出邀请,据说一些高管甚至已经在前往华盛顿的路上。就在椭圆形办公室签署仪式开始前数小时,特朗普叫停了该命令,并表示他不喜欢这份草案,也不想采取任何可能削弱美国在与中国AI竞争中地位的举措。此次取消发生在周三晚到周四晨之间的一连串电话之后。埃隆·马斯克、马克·扎克伯格和大卫·萨克斯直接向特朗普表达了他们的担忧。报道称,他们认为拟议中的审查流程可能会拖慢AI发展。草案原本会建立一个自愿制度,要求AI公司在前沿模型发布前最多提前90天提交给联邦机构,以便政府测试其危险能力并查找漏洞。
其目的是在模型大规模公开之前发现问题,防止黑客或外国行为体加以利用。草案明确排除了强制许可或政府预先批准,但这项提议在政府内部和行业内仍然引发争议。萨克斯最初在听取白宫官员简报后似乎表示可以接受,但后来开始担心,这种自愿机制在实践中可能变成强制要求,并可能被未来政府滥用。据报道,到了周四早晨,他直接给特朗普打电话,最终促成了这次叫停。行业内对这一方案的看法也并不一致,OpenAI游说人士克里斯·莱汉总体上表示支持,而其他公司则希望把90天的审查期缩短到14天。草案还计划让财政部在其中发挥主导作用,这一点也引发了疑问,因为AI安全审查通常更常由CISA和NIST负责。
这份草案原本会建立一种自愿机制,要求前沿AI公司在模型发布前最多提前90天将最新模型提交给联邦机构进行安全测试。草案明确排除了强制许可或事先批准,但批评者仍担心这一流程在实践中可能变成事实上的强制要求,或被未来政府进一步扩展。
Simon Willison
·#ftc
2026 年 5 月 22 日,FTC 宣布 Cox Media Group、MindSift 和 1010 Digital 将合计支付 93 万美元,以了结有关其“Active Listening”营销服务的指控。FTC 表示,这些公司虚假声称该服务会利用智能设备的语音数据和实时对话监听来定向投放广告。
这起案件表明,监管机构把虚假的 AI 营销宣传视为消费者保护问题,而不只是品牌包装问题。它也反映出广告技术供应商正面临越来越严格的审查,尤其是那些暗示自己拥有侵入式数据收集或同意机制、但实际上并没有的公司。
2026 年 5 月 22 日,FTC 表示,将要求 Cox Media Group、MindSift 和 1010 Digital 合计支付 93 万美元,以了结它们在“Active Listening”这一 AI 营销产品上的误导客户指控。该服务原本被宣传为可以通过智能设备监听对话,实时捕捉意图数据,再将这些语音数据与行为数据结合,用于定向投放本地广告。FTC 的投诉称,这一说法并不属实。根据 FTC 的说法,这项服务既没有监听对话,也没有使用语音数据,而且也没有把广告准确投放到客户想要的地区。
相反,这些公司据称只是把从其他数据经纪商那里获得的电子邮件名单加价转售。FTC 还指控这些公司虚假描述消费者同意的来源,声称用户通过应用的服务条款就已经“选择加入”。FTC 认为,点击必须接受的条款并不构成对使用家庭内部语音数据的充分同意。该案件也承接了 2024 年外界对 CMG“active listening”宣传的质疑,当时这套说法因带有监控式广告技术色彩而引发广泛关注。
FTC 表示,这项服务实际上并没有监听消费者对话,也没有使用语音数据;相反,这些公司只是把来自其他数据经纪商的电子邮件名单加价转售。FTC 还指出,声称用户通过应用条款“选择加入”并不构成对这种侵入式用途的有效同意;并且即使该服务真按宣传运行,未经充分同意使用家庭中的语音数据也可能违反《FTC 法案》第 5 条。
The Decoder

·#ai
Cloudflare 首席执行官 Matthew Prince 表示,尽管公司收入创下纪录,但仍裁掉了超过 20% 的员工,并称 AI 正在减少对中层管理、运营和合规岗位的需求。他借用 Peter Drucker 的“建造者、销售者和测量者”框架,认为被 AI 影响的主要是“测量者”,而不是建造者或销售者。
这一说法触及一个更大的争论:AI 到底是在真正替代工作岗位,还是只是被用来为裁员和重组提供理由。如果 Prince 的判断成立,那么管理、合规和监督类白领岗位可能会成为最先被 AI 大规模重塑的领域之一。
Cloudflare 首席执行官 Matthew Prince 在《华尔街日报》客座专栏中表示,AI 正在改变企业应该优先保留哪些岗位。他说,尽管 Cloudflare 的收入创下纪录、自由现金流强劲,而且新增客户数量也达到新高,公司仍裁掉了超过 20% 的员工,以适应他所说的 AI 时代新商业环境。Prince दावा称,在美国商业史上,没有哪家上市公司能像 Cloudflare 这样在营收增长超过 30% 的同时又裁员超过 20%,并预测这种做法将在一年内变得普遍。他的论点基于 Peter Drucker 1954 年的《The Practice of Management》,把员工分为三类:建造者、销售者和测量者。
按照他的说法,建造者负责开发产品,销售者负责获取客户,而测量者则负责内部审计、收入确认、中层管理以及营销控制等监督性工作。Prince 表示,被裁掉的大多数人属于“测量者”,并解释说 AI 让管理者可以带更多直接下属,运营团队也可以整合成更小的支持结构,财务和营销中的部分工作同样可以自动化。他还认为建造者和销售者是安全的,因为 AI 让工程师和销售团队更高效,而不是让他们失业。不过,文章同时质疑这是否真的是 AI 驱动的转型,并指出 Cloudflare 的经营亏损、利润率下降以及高基础设施成本,更像是一次传统的效率优化,而不是有明确证据表明 AI 已经真正接管了这些岗位。
Prince 说,Cloudflare 已经削减了中层管理层级、整合了运营,并在财务和营销等环节推进自动化,同时认为建造者和销售者不会受到裁员影响。文章同时指出,经营亏损、利润率收缩和高基础设施成本,可能说明这更像一次传统的降本增效,而不是有明确证据表明由 AI 真正接管了这些工作。
The Decoder

OpenAI 发布了一个面向 PowerPoint 的 ChatGPT 测试版插件,可以直接在应用内使用自然语言创建和编辑演示文稿。它还可以回答关于演示文稿结构、缺口和目标受众的问题。
这把生成式 AI 直接带入了报告、客户简报和战略汇报等核心办公流程。它可能为办公用户节省时间,但关于误删内容的提醒也说明可靠性和人工检查仍然很重要。
OpenAI 已经推出了一个用于 PowerPoint 的 ChatGPT 插件,它以加载项的形式直接在 Microsoft PowerPoint 中运行。该功能目前处于测试阶段,用户需要使用 OpenAI 账号登录。其可用性不仅取决于用户所处的计划,还取决于管理员设置。根据 OpenAI 的说法,这个插件可以根据笔记、文档、电子表格或图片来生成新的演示文稿。它也能编辑现有幻灯片,并回答关于演示文稿结构、缺失内容和目标受众的问题。
OpenAI 表示,该工具面向季度报告、客户简报和战略汇报等商务工作场景。公司还提到,Gmail、Outlook 和 SharePoint 等应用可以连接到该插件。与此同时,OpenAI 也提醒,复杂格式和自定义字体等功能目前还没有完全支持。它进一步警告说,如果提示语不够清晰,ChatGPT 可能会修改甚至删除内容,因此用户在使用前应仔细检查,并先保存重要的演示文稿。
该插件通过 OpenAI 账号登录使用,具体可用性取决于用户订阅计划和管理员设置,不过 OpenAI 表示它已在全球范围内向 Free 到 Enterprise 各层级开放。OpenAI 还提醒,复杂格式和自定义字体目前尚未完全支持,用户在让 ChatGPT 修改前应先保存重要演示文稿。
The Decoder

·#ai
据报道,DeepSeek 正接近一轮 700 亿元人民币的融资,这可能使公司估值达到约 450 亿美元。创始人梁文锋向投资者表示,公司将把基础 AI 研究和通用人工智能(AGI)开发放在短期盈利之前,同时继续推进开源模型。
这则报道显示,DeepSeek 试图把自己定位为一家长期研究型机构,而不是追求快速变现的公司,这在 AI 初创企业普遍承受收入压力的环境下很重要。如果属实,它可能影响投资者、竞争对手和政府如何看待开源 AI、前沿研究与商业回报之间的平衡。
据报道,DeepSeek 正接近完成一轮 700 亿元人民币的融资,约合 132 亿新加坡元,这轮融资可能把公司估值推高到大约 450 亿美元。彭博社称,创始人梁文锋向投资者表示,公司将把基础 AI 研究和 AGI 开发置于短期利润目标之上。梁文锋还希望 DeepSeek 继续推进开源模型,而不是只专注于封闭式商业化。与此同时,随着引入更多投资者资金,公司也面临越来越大的盈利压力。报道提到,DeepSeek 正在推进名为“DeepSeek Code”的项目,它可能与 Claude Code 展开竞争。
文章指出,在当前 AI 产品中,编程和 B2B 用例与 ChatGPT 一样,是最成功的应用方向之一。预计参与投资的机构包括中国国有的国家人工智能产业投资基金,金额约 100 亿元人民币,以及腾讯、IDG Capital 和 Monolith Capital。相关谈判仍在进行中,最终条款可能变化。报道还强调,DeepSeek 的估值虽然很高,但仍远低于 OpenAI 和 Anthropic 接近万亿美元的水平。
据称,这轮融资预计将包括中国国有的国家人工智能产业投资基金约 100 亿元人民币,以及腾讯、IDG Capital 和 Monolith Capital。DeepSeek 还被指正在开发“DeepSeek Code”,它可能会在编程和 B2B 工作流场景中与 Claude Code 竞争。
The Decoder

OpenAI 在 Mac 版 Codex 中推出了 Appshots,用户只需同时按下两个 Command 键,就能把当前活动窗口发送到一个 Codex 线程。这个功能不仅会传送截图,还会提取窗口中的文本,包括超出可见滚动区域的内容。
这让 Mac 用户能够更轻松地向 Codex 提供真实场景中的丰富上下文,而不必手动复制文字或费力描述屏幕内容。对于处理文档、邮件、设计草稿和错误信息等场景的编程辅助来说,这可能显著提升效率,因为上下文往往才是主要瓶颈。
OpenAI 为 Codex 在 Mac 上推出了新的 Appshots 功能,让用户能更快地把任务上下文提供给这款编程助手。用户只需同时按下两个 Command 键,就可以把当前活动窗口直接发送到一个 Codex 线程中。与普通截图不同,Appshots 还会提取窗口中的文本,即使这些文本已经超出当前可见的滚动区域,也会一并发送。这样一来,用户就可以直接分享 API 文档、邮件、设计草稿或错误信息,而不必手动复制内容,也不需要费力解释。对于需要 Codex 理解某个应用状态或另一款程序中精确措辞的开发场景,这个功能尤其有用。
文章指出,在 Google Docs 或 Gmail 等网页应用中,Appshots 有时可能只能捕获可见部分的截图。它还说明该功能需要 macOS 的屏幕录制和辅助功能权限。Appshots 可在 Mac 的所有套餐中使用,并被视为对 OpenAI 在 4 月推出的 Computer Use 功能的补充。此外,文章提到,与 Computer Use 不同,Appshots 不受欧洲经济区、英国和瑞士地区限制的影响。
Appshots 需要 macOS 的屏幕录制和辅助功能权限;在 Google Docs 或 Gmail 等服务中,Codex 有时可能只能抓取可见区域的截图。该功能适用于 Mac 上的所有套餐,并且补充了 4 月公布的 Computer Use 功能,而且不受覆盖欧洲经济区、英国和瑞士的地区限制影响。
The Verge AI

The Verge 报道称,Jamir Nazir 入围英联邦短篇小说奖的作品《The Serpent in the Grove》看起来疑似由 AI 写成。这一指控引发了英联邦基金会和 Granta 的回应,两者都表示目前无法可靠证明是否使用了 AI。
这件事凸显了生成式 AI 正在让文学署名与原创性更难核实,尤其是在投稿奖项的未发表小说中。它也说明出版机构和赛事主办方可能缺乏足够可靠的工具或流程来有把握地识别 AI 辅助写作。
自 2012 年以来,英国文学杂志 Granta 一直会刊登英联邦短篇小说奖每年的地区获奖作品,因此这些选作在文学圈内备受关注。今年,其中一篇入选作品、Jamir Nazir 的《The Serpent in the Grove》之所以引发质疑,是因为它看起来带有多种 LLM 生成文本的特征,包括混杂隐喻、首语重复和“三段式”列表。The Verge 的作者最初对这一指控并不完全相信,因为许多所谓的 AI 特征在人类写作中也很常见。文章指出,AI 生成文本往往会给人一种微妙的“不对劲”感,即使单独看某一种风格特征也无法证明什么。曾在乔治梅森大学 Mercatus Center 担任 AI 访问学者的 Nabeel S. Qureshi 说,仅凭前两句他就认为这篇作品很像 AI 写的。
作为回应,英联邦基金会总干事 Razmi Farook 表示,主办方要求参赛者确认作品为原创且未发表,并且所有入围作者都已亲自声明在创作过程中没有使用 AI。Farook 还说,在出现足够可靠、又能适用于未发表小说的 AI 检测工具之前,奖项只能建立在信任原则之上。Granta 出版人 Sigrid Rausing 则表示,杂志曾把这篇作品交给 Claude,并询问它是否为 AI 生成,得到的长篇回应结论是“几乎可以肯定不是由人类独立完成”。Rausing 也暗示,评委可能把一个 AI 抄袭案例授了奖,但同时承认真相也许永远无法完全查清。文章最后指出,越来越多出版物会被 AI 生成故事蒙骗,甚至会刊登并不存在的“作者”作品,而 Nazir 本人也一度被怀疑并非真实存在的人。
曾任 AI 访问学者的 Nabeel S. Qureshi 说,这篇故事的前两句就足以让他怀疑其为 AI 生成,并指出其节奏和风格模式很像机器文本。Granta 表示曾把作品交给 Claude 检查,并得到“几乎可以肯定不是由人类独立完成”的回应,但 Claude 本身是聊天机器人,并不是专门的检测工具。
The Verge AI

Spotify 与环球音乐集团(UMG)达成了一项授权协议,允许用户基于 UMG 的曲库生成由 AI 驱动的混音和翻唱。该功能被定位为面向“超级粉丝”的高级订阅附加服务,但具体定价和实现方式尚未公布。
这可能让 AI 生成音乐创作在主流流媒体平台内部变得更普及,让普通用户更容易制作和分享混音式内容。与此同时,它也引发了一个更大的问题:这类工具究竟是在加深粉丝互动,还是在让平台充斥低价值的 AI 音乐。
The Verge 认为,AI 翻唱和混音早已在 Spotify、YouTube、TikTok 和 Instagram 等平台上泛滥,而 Spotify 这次的新工具只会让它们更容易被制作出来。Spotify 与 Universal Music Group 已经签署授权协议,允许用户基于 UMG 的曲库生成混音和翻唱版本。双方把这项功能包装成面向“超级粉丝”的高级订阅附加服务,UMG 首席执行官 Sir Lucian Grainge 还表示,它的目标是“加深粉丝关系”。不过,文章指出,Spotify 目前还没有说明这项产品的具体技术实现方式,也没有公布价格。
作者对这种做法持怀疑态度,认为 AI 翻唱并不能像自己学会弹奏或拆解歌曲那样,真正帮助人理解音乐。相反,这更像是在对外展示“我让机器帮我做了一个版本”,而不是在与原作进行有意义的互动。文章还提到 Suno 的 subreddit 社区,一些用户表示他们主要只听自己生成的音乐,而不再听流媒体平台上的艺人作品。最后,作者认为,虽然有趣的风格混搭可能无伤大雅,但当前生成式音乐工具的输出往往单调、可预测,而且不如真人录制的粗糙翻唱有魅力。
文中提到该工具由生成式 AI 技术驱动,但 Spotify 尚未说明其技术实现方式,也未公布费用。作者认为,AI 翻唱往往剥离了人类演绎中的技巧、判断和惊喜感,尤其与真实音乐人经过精心编排的再诠释相比,更显单薄。