AI 日报

AI 安全、算力与内容平台加速重塑：今日精选 8 则

今天的焦点是：AI 正在从“工具”变成会改写系统边界的力量。它一边把漏洞发现、代码优化和多模态创作推向更高效率，另一边也在拉高内存、能源与治理的成本。与此同时，平台和教育机构开始重新划定 AI 的使用边界，显示行业正在进入更强烈的再平衡阶段。

Overview

当天导读

从 19 条资讯中筛选出 8 条

AI 漏洞发现速度已逼近失控边界

Anthropic 称 Claude Mythos Preview 在一个月内与伙伴发现超过 10,000 个高危或严重漏洞，凸显“发现”正在快过“修补”。[2006]

关联报道 1

HBM 抢产能，消费电子可能更贵

AI 对高带宽内存的需求正在挤压 DDR/LPDDR 供给，低价手机和依赖 DRAM 的设备最可能受影响。[2008]

关联报道 1

代理模型开始做长时工程活

Qwen3.7-Max 演示了 35 小时自主优化芯片内核，显示“持续执行、多轮试错”的代理能力正在提升。[2009]

谷歌继续把搜索改造成 AI 答案引擎

Pichai 对链接的定义变化，连同 “preferred sources” 等设计，暗示搜索的编辑权力进一步集中在谷歌手中。[2010]

生成式媒体与治理边界同步收紧

Gemini Omni 推进多模态视频生成，但 NTSB 事件说明公开数据也可能被 AI 反向重建，推动机构重新设限。[2014][2012]

关联报道 1 · 关联报道 2

教育与产业都在重新划线

伯克利法学院对计分作业禁用 AI，和马斯克相关公司对能源路径的转向一起说明：AI 时代的规则、技能与基础设施都在重写。[2013][2011]

关联报道 1 · 关联报道 2

今日主题

AI 正在同时压缩“发现问题”的时间、拉长“修复与治理”的压力：安全团队面临更多漏洞，基础设施面临更紧内存与能源约束，平台产品则继续向 AI 答案与生成式媒体演进。

重点观察

安全侧：发现速度已快过修补速度。 Anthropic 称 Claude Mythos Preview 与合作伙伴在一个月内发现了 10,000+ 高危或严重漏洞，显示 AI 辅助漏洞挖掘正在放大披露与修复之间的缺口。[2006]
算力侧：AI 需求正在挤压消费级内存供给。 HBM 产能扩张意味着 DDR/LPDDR 资源被重新分配，手机与笔记本等消费电子未来几年可能承压涨价。[2008]
代理能力继续上探。 阿里 Qwen3.7-Max 展示了 35 小时自主优化芯片代码的能力，说明“可持续执行任务”的代理模型正在进入更实用的工程场景。[2009]

平台与分发

谷歌继续把搜索重塑为 AI 答案引擎：Pichai 对“链接”的表述更像是在确认网页只是输入材料而非最终界面。[2010] 与此同时，Gemini Omni 代表谷歌在多模态生成视频上的进一步推进，创作能力增强，但合成内容风险也同步上升。[2014]

治理与边界

AI 的外溢效应也在逼迫制度回应：NTSB 因公开记录被用于复原已故飞行员声音而暂时收紧访问，说明“公开数据可被重建”的风险正在上升。[2012] 教育端则在反向收紧，伯克利法学院对计分作业几乎全面禁用 AI，强调先建立独立推理能力。[2013]

能源与基础设施

马斯克相关公司的最新动向显示，AI 基础设施正在推动更现实主义的能源选择：xAI 倾向天然气涡轮机，SpaceX 则把太阳能愿景更多转向太空场景。[2011] 这与更广泛的算力扩张趋势相呼应：训练与推理的增长不只需要模型，也需要电力、产能和供应链。

结论

今天的故事共同指向一个判断：AI 竞赛已不再只是模型能力之争，而是安全修复能力、内存和能源供给、平台分发权力与制度治理能力的综合竞争。[2006][2008][2010][2011]

Stories

当日精选 8 条

The Decoder

5月23日 15:42 UTC·#ai-security

Claude Mythos Preview 找虫速度超过修补

Anthropic 表示，Claude Mythos Preview 与大约 50 个合作伙伴在一个月内发现了超过 10,000 个高危或严重漏洞，涉及系统关键软件。公司称，这个模型现在发现漏洞的速度已经快过组织验证、披露和修补漏洞的速度。

这意味着 AI 辅助漏洞发现的速度可能已经快到超过传统软件补丁周期，从而扩大“发现漏洞”和“真正修复漏洞”之间的差距。这对关键基础设施厂商、开源维护者和安全团队都很重要，因为他们可能会面对远超处理能力的漏洞报告。

在 Project Glasswing 启动一个月后，Anthropic 公布了 Claude Mythos Preview 的首批结果。公司称，约 50 个合作伙伴在使用这款 AI 模型时，已经在与互联网和关键基础设施相关的软件中发现了超过 10,000 个高危或严重漏洞。Anthropic 表示，这个模型发现安全缺陷的速度已经超过了团队验证、披露和修补漏洞的速度。

Anthropic 将这一情况描述为一个危险的过渡期，因为 AI 驱动的漏洞发现正在快于组织的修复能力。公司还表示，由于行业通行的 90 天漏洞披露期仍然适用，因此目前不会公开某些技术细节，以免在修复完成前让用户暴露在风险之中。多家合作伙伴称，漏洞发现速度提升了十倍以上。

Cloudflare 表示，它标出了 2,000 个漏洞，其中 400 个属于高危或严重级别，而且该模型的误报率优于人工测试者。Mozilla 则表示，它在 Firefox 150 中发现并修复了 271 个漏洞，比 Claude Opus 4.6 在 Firefox 148 中发现的数量多出十倍以上。Anthropic 还援引英国 AI Security Institute 的外部评估结果称，最新的 Mythos Preview 检查点是首个完整解决其内部两个 cyber range 的模型。

独立安全平台 XBOW 认为，这一模型相比以往系统有重大进步，并称其具有“前所未有的精确度”。Anthropic 还表示，Mythos Preview 在学术基准 ExploitBench 和 ExploitGym 上也处于领先位置，而 GPT-5.5 在这些基准的大多数项目上紧随其后，并且已经公开可用。公司补充说，这种影响也已经反映在补丁发布量上，例如 Palo Alto Networks 在最新版本中发布的补丁数量是平时的五倍。

Anthropic 说，Microsoft 预计新的补丁数量在一段时间内还会继续上升，而 Oracle 则表示自己发现和修复漏洞的速度已经比以前快了好几倍。除了找漏洞之外，这个模型还有其他用途：Anthropic 称，它帮助某家合作银行识别并阻止了一笔价值超过 150 万美元的欺诈电汇。

与此同时，Anthropic 还用 Mythos Preview 扫描了 1,000 多个开源项目，并估计发现了 6,202 个高危或严重漏洞，以及 23,019 个各等级问题。在目前已由独立公司和 Anthropic 自身审查的 1,752 个高危或严重发现中，90.6% 被证实是真阳性，62.4% 被确认确实属于高危或严重。基于这些分流结果，Anthropic 估计该模型在开源代码中已经发现了接近 3,900 个已确认的高危或严重漏洞。

Anthropic 表示会继续扫描，但一些开源维护者要求公司放慢披露节奏，因为他们需要更多时间设计补丁。公司称，高危或严重漏洞平均需要两周才能修复，但目前已经报告了 530 个此类漏洞，其中 75 个已修补，65 个已发布公开公告，另有 827 个已确认漏洞仍在等待披露。

Anthropic 没有披露具体技术细节，因为许多发现仍处在行业通行的 90 天披露窗口内，过早公开可能会让用户面临风险。公司称，独立评估显示该模型表现很强，包括在英国 AI Security Institute 的两个 cyber range 中全部通关，并在 ExploitBench 和 ExploitGym 上取得领先成绩，同时一些合作伙伴的补丁数量也明显上升。

查看单篇正文查看原文

Simon Willison

5月23日 06:01 UTC·#memory-shortage

内存短缺推高消费电子价格

Simon Willison 转述了 David Oks 的观点：AI 对 HBM 的需求正在重塑内存市场，并让消费电子产品变得更贵。核心变化是有限的晶圆产能正从 DDR 和 LPDDR 转向 HBM，而 HBM 的产能占比预计将从 2% 上升到 2026 年底的 20%。

如果这种转移持续下去，依赖 DRAM 或 LPDDR 的手机、笔记本和其他设备可能在未来几年明显涨价。受影响最严重的将是低价智能手机，而这类产品对非洲和南亚等市场尤为重要。

Simon Willison 介绍了 David Oks 对消费电子涨价原因的解释，并认为这是目前见过最清楚的版本。文章的核心逻辑是供给侧约束：内存厂商的晶圆处理产能是固定的，而这部分产能必须在面向桌面和服务器的 DDR、面向手机和低功耗设备的 LPDDR，以及面向 GPU 的 HBM 之间分配。随着 AI 数据中心快速扩张，HBM 的价值大幅上升，其晶圆分配比例预计会从过去的 2% 提高到 2026 年底的 20%。Oks 指出，1GB HBM 消耗的晶圆产能超过 1GB DDR 或 LPDDR 的三倍以上，因此把产能转向 HBM，会直接压缩消费级内存的供应。

文章还提到，内存公司从过去竞争对手消失的经历中吸取了教训，通常不会过度扩建晶圆厂产能。Willison 认为，这种紧张已经开始影响 100 美元以下的智能手机市场。对非洲和南亚等地区来说，这类廉价手机尤其重要，因此价格上涨会带来更广泛的社会影响。

文章指出，全球只剩下三家主要内存厂商，而且它们的晶圆制造产能是固定的，必须在 DDR、LPDDR 和 HBM 之间分配。文中还提到，1GB HBM 消耗的晶圆产能超过 1GB DDR 或 LPDDR 的三倍，这使得优先生产 HBM 的机会成本非常高。

查看单篇正文查看原文

The Decoder

5月23日 18:17 UTC·#ai-agents

阿里 Qwen3.7-Max 自主运行 35 小时优化芯片代码

阿里巴巴的 Qwen 团队发布了 Qwen3.7-Max，这是一款面向长时间代理任务的专有模型，只能通过阿里云 Model Studio API 使用。在一次演示中，它在阿里自家的 T-Head-ZW-M890 加速器平台上，连续自主优化硬件注意力内核长达 35 小时。

这表明阿里巴巴正在把重心从聊天式模型转向能够在最少人工监督下持续完成复杂工程工作的 AI 系统。如果这些结果成立，类似模型可能会加速软件优化、编程工作流以及云端和企业场景中的工具型代理应用。

阿里巴巴 Qwen 团队推出了 Qwen3.7-Max，这是一款专门面向代理式工作流的新旗舰模型，而不是面向普通聊天场景的通用模型。该模型只通过 API 提供，并且支持与 OpenAI 和 Anthropic 兼容的接口，因此可以接入 Claude Code、OpenClaw 和 Qwen Code 等工具。阿里表示，这款模型重点面向编程代理、办公自动化、长时间自主执行，以及在不同代理框架下保持一致表现等场景。一个最引人注目的演示是，Qwen3.7-Max 连续 35 小时全程自主完成了一个内核优化任务。这个任务是在阿里自家的 T-Head-ZW-M890 加速器平台上，为 SGLang 优化一个硬件注意力内核，而起点只有一个 Triton 参考实现。团队称，这个模型在训练阶段从未见过这类芯片架构，并且在执行任务时没有任何硬件文档、测量数据或示例代码可用。

整个过程中，它完成了 432 次内核测试和 1,158 次工具调用，持续进行编译、测量、修改和排错。阿里方面表示，最终优化后的内核相较参考实现平均提速 10 倍。公司还称，Qwen3.7-Max 在标准基准上可与头部 AI 实验室的模型竞争，并采用了旨在增强跨环境鲁棒性的训练方法。该方法把每个任务拆成任务本身、工具环境和验证器三个独立部分，再重新组合训练，以迫使模型学习可迁移的策略，而不是只学会某一种环境下的捷径。团队表示，这让模型在 QwenClawBench 和 CoWorkBench 等基准上，即使切换测试环境也能保持稳定表现。此外，阿里还让 Qwen3.7-Max 在训练过程中充当自我监督的“看门人”，它监控了超过 80 小时的软件工程训练运行，执行了 10,000 多次检查，写出了 13 条新的检测规则，并标记了 1,618 个疑似奖励作弊案例。

这次芯片优化测试据称没有硬件文档、没有测量数据，也没有示例代码；模型只能基于一个 Triton 参考实现来工作。阿里方面表示，它完成了 432 次内核测试和 1,158 次工具调用，最终相对参考内核实现了平均 10 倍加速。

查看单篇正文查看原文

The Decoder

5月23日 17:16 UTC·#google-search

皮查伊将链接重新定义为谷歌搜索的一部分

在 I/O 之后的一期播客中，谷歌 CEO Sundar Pichai 表示，“来源和链接将始终作为其中的一部分存在”，这显示出谷歌正在用新的方式描述搜索，并继续推进 AI 生成答案。文章认为，这标志着搜索正从以链接为核心的目录，转向由 AI 驱动、且更具编辑控制力的答案引擎。

这很重要，因为谷歌仍然是通往互联网的主要入口之一，它如何展示链接会直接影响出版商的流量、可见度和影响力。如果 AI 答案成为默认界面，谷歌就会越来越多地决定哪些来源被看到，从而更像一个带有编辑权力的发布者，而不只是中立的信息中介。

文章认为，谷歌正在持续把 Search 从传统的链接目录，转变为由 AI 驱动的答案引擎。这个变化体现在 CEO Sundar Pichai 最近的措辞上：他表示“来源和链接将始终作为其中的一部分存在”，而不是把它们描述为搜索的基础。作者认为这一表述非常重要，因为谷歌的商业模式历史上建立在开放网络之上，也建立在把用户导向外部网站之上。文章指出，谷歌现在似乎正在淡化这种角色，同时仍然把网页内容作为 AI 生成回复的输入。

文章还提到，Pichai 谈到长期产品指标时表示，用户对 AI 搜索的反应总体积极，并且会持续回访。为了说明这一方向，文章举了“preferred sources”功能以及把网站直接显示在聊天界面中的新体验作为证据。作者认为，这些变化让谷歌更像一个负责回答问题、并把用户留在自己产品内部的系统，而不再只是一个中立的网页链接中介。文章最后强调，真正的风险不仅是出版商流量受损，更是谷歌对哪些来源被纳入或被忽略所拥有的编辑权力不断集中。

文章提到谷歌的“preferred sources”功能看似给用户更多控制权，但大多数人很可能不会使用，因此实际影响有限，而谷歌仍可决定 AI 搜索中展示什么。文章还指出，一些新体验会把网站直接显示在聊天界面里，从而减少用户离开谷歌生态的必要。

查看单篇正文查看原文

TechCrunch AI

5月23日 21:00 UTC·#elon-musk

马斯克的清洁能源愿景似乎在转向

TechCrunch 认为，马斯克相关公司的最新动作，尤其是 SpaceX 的 IPO 文件和 xAI 的用电选择，显示出他正在背离特斯拉最初的太阳能电气化愿景。文章指出，xAI 依赖天然气涡轮机供电，而 SpaceX 强调的是太空太阳能，而不是地面太阳能。

如果这一判断成立，这意味着全球最有影响力的科技人物之一对 AI 和基础设施能源的思路正在发生重大转变。它也凸显了算力需求快速增长与地球上清洁能源现实约束之间的更大行业矛盾。

TechCrunch 认为，马斯克最近一系列公司的动作，看起来像是在背离特斯拉早期提出的“太阳能电气化经济”目标。特斯拉最初的 Master Plan 曾把公司的使命描述为加速从“挖矿—燃烧”的碳氢经济，转向太阳能电气化经济。可是，马斯克旗下较新的公司 xAI 据称已经转向使用化石燃料，为其数据中心部署了数十台天然气涡轮机，并计划再购买价值数十亿美元的相关设备。文章还指出，马斯克旗下公司彼此采购并不罕见，例如 SpaceX 买了 1,279 辆 Cybertruck，而 xAI 在过去两年里花了 6.97 亿美元购买 Tesla Megapacks。尽管如此，xAI 并没有从特斯拉购买任何具有实质规模的太阳能板。

文章强调，SpaceX 文件里出现的太阳能，主要是太空场景下的太阳能，而不是给地面上的 xAI 数据中心供电。SpaceX 认为，太空太阳能阵列因为可以全天候接受阳光，其发电量可能比地面太阳能高出五倍以上，因此一些硅谷高管开始设想把 AI 服务器搬到太空。TechCrunch 也指出，这个设想面临很大的经济和技术障碍，包括发电和用电成本远高于地面数据中心、芯片在太空环境中的防护难题，以及 AI 训练是否能够分布到多颗卫星上的不确定性。SpaceX 还把问题描述为“太瓦级”的 AI 算力增长，而公司认为地面世界的供电和场地限制可能会让第三方估算显得过低。

文章称，xAI 已经使用了数十台未经监管的天然气涡轮机，并计划再采购价值 28 亿美元的设备，同时在过去两年里花了 6.97 亿美元购买 Tesla Megapacks。文章还提到，SpaceX 声称太空太阳能阵列的发电量可比地面太阳能高出五倍以上，但同时指出其经济性、芯片防护和训练分布方式都面临严重挑战。

查看单篇正文查看原文

TechCrunch AI

5月23日 07:03 UTC·#ai-ethics

AI 利用公开记录复原已故飞行员声音

美国国家运输安全委员会在发现网络上流传着用 AI 复原的 UPS 坠机事故中已故飞行员声音后，暂时移除了其案卷系统的访问权限。这些复原音频据称是根据公开的频谱图文件和 UPS Flight 2976 的公开文字记录制作出来的。

这一事件凸显了新的隐私与伦理风险：即使公开的并不是座舱录音本身，相关数据仍可能被用来复原出足以引发严重争议的声音，这会影响遇难者家属和监管机构。它也表明，随着生成式 AI 让间接复原变得更容易，公开记录系统可能需要重新设计。

TechCrunch 报道称，美国国家运输安全委员会在发现一段由 AI 生成、用于复原 UPS 坠机事故中已故飞行员声音的音频在网上传播后，暂时关闭了其案卷系统的访问权限。事件涉及去年在肯塔基州路易斯维尔发生的 UPS Flight 2976 空难，机组飞行员在事故中遇难。NTSB 表示，公开案卷中并没有包含真实的座舱语音记录，因为联邦法律禁止公开这类内容。可是，这份事故文件里包含了一张语音记录器的频谱图，也就是把声音频率转成图像的可视化文件。

知名 YouTuber Scott Manley 在 X 上指出，这种图像里可能编码了大量数据，理论上可以用来重建音频。根据 NTSB 的说法，人们后来结合这张频谱图和公开的文字记录，制作出了座舱录音的近似版本。社交媒体上的帖子还显示，这一过程使用了包括 Codex 在内的 AI 工具。随后，NTSB 在周五恢复了案卷系统的公开访问，但仍关闭了 42 起调查的访问权限以便审查，其中就包括 UPS Flight 2976 相关案件。

联邦法律禁止 NTSB 在公开案卷中包含真实的座舱语音记录，但这起事故文件中包含了一张记录器输出的频谱图。频谱图会把声音频率转换成图像，人们正是利用这张图像、文字记录以及 Codex 等 AI 工具，拼出了座舱音频的近似版本。

查看单篇正文查看原文

The Decoder

5月23日 18:55 UTC·#ai-policy

伯克利法学院限制AI用于评分作业

加州大学伯克利法学院将从2026年夏季开始，在几乎所有计分作业中禁止使用AI。学生只能在有限的研究任务中使用AI，而头脑风暴、起草、列提纲、修改、翻译、校对以及考试都被禁止。

这一政策来自顶尖法学院，释放出一个明确讯号：法律教育应先重视独立思考能力，再谈AI辅助。它也反映出高等教育领域在采纳生成式AI与维护学术诚信、核心职业技能之间的更大张力。

加州大学伯克利法学院正在对生成式AI在法律教育中的使用采取强硬立场。自2026年夏季起，学校将在几乎所有计分作业中禁止AI，包括头脑风暴、起草、列提纲、写作、修改、翻译和校对。考试也将完全禁止使用AI。唯一允许的例外是有限的研究辅助，例如帮助学生查找法条或判例。

即便如此，学生仍必须亲自核实自己提交的每一条事实和引文。学校表示，虚构的引文将被视为违反该政策的证据。伯克利认为，未来的律师需要先建立核心思维能力，才能在有意义的情境下使用AI。与此同时，学校也保留了教师为特定课程放宽规则的空间，尤其是那些专门教授如何与AI协作的课程。

伯克利允许学生把AI用于研究，例如查找法条或判例，但学生必须对自己引用的每一个事实负责。学校还表示，虚构引文会被视为使用被禁AI的证据，而教师可以为专门教授AI使用的课程放宽规则。

查看单篇正文查看原文

The Verge AI

5月23日 19:00 UTC·#google-gemini

Google推出Gemini Omni视频模型

Google推出了Gemini Omni，这是一组新的生成式模型，官方称其未来可在多种输入和输出形式之间相互转换。首个版本Omni Flash已在Google的Flow AI视频生成和编辑平台上线，并被定位为比Veo更强的视频创作与编辑工具。

这标志着Google进一步进入多模态生成媒体领域，即一个系统有望在同一工作流中处理文本、图像、视频等多种形式。对于创作者和编辑来说，它可能降低视频生成、修改和重制的成本，但也会加剧围绕深度伪造和合成媒体的担忧。

The Verge 通过一项轻松的深度伪造实验测试了 Google 新的 Gemini Omni 模型家族，实验对象是一只名叫 Buddy 的毛绒鹿。文中把 Omni 描述为一组未来可能在多种媒体形式之间互相转换的生成式模型，但目前首个版本 Omni Flash 主要用于 Google Flow 平台中的视频生成。Google 表示，Omni 可以把上传的视频和文字提示一起作为输入，并且相比 Veo，它在现实世界理解和角色一致性方面更强。实际测试结果则喜忧参半：有些片段比之前测试 Veo 时更连贯，也更贴近提示词，但另一些片段仍然出现明显的 AI 失真。比如 Buddy 在跳伞时会突然改变朝向，另一个视频里模型还会把蜂蜜罐不断变成不同的容器。

Omni 的文字编辑能力确实比 Veo 3 更好，但依然不够稳定，还会出现不该有的变化，例如角色身上突然长出鹿角。作者要求模型移除鹿角后，它虽然在一个场景里删掉了鹿角，却在其他场景里又加了回去。文章还指出，Omni 并不是免费使用的，因为视频生成会按片段长度和“素材”消耗不同数量的积分，而编辑一次要花更多积分。作者在生成大约 20 个片段并做了几次编辑后，$20 的 AI Pro 订阅所包含的 1,000 积分已经所剩无几。

根据这篇上手体验，Omni可以把上传的视频和文字提示一起作为生成起点，Google还声称它比Veo更懂现实世界，并且更能保持角色一致性。文章同时指出，编辑功能确实比以前更好，但结果仍会出现明显的AI痕迹，例如方向突然变化、物体前后不一致，以及结尾画面很怪。

查看单篇正文查看原文