AI 日报

AI 日报 · 2026-07-04

这期日报从 27 条资讯中筛选出 9 条重点 AI 新闻。关注主题集中在 security、ai-evaluation、anthropic。如果只先读两条，可以从《AI 找漏洞推动漏洞报告激增》、《英国AI机构称基准低估了智能体能力》开始。

Overview

当天导读

从 27 条资讯中筛选出 9 条

AI 找漏洞推动漏洞报告激增

如果 AI 系统确实显著提高了漏洞发现速度，那么它们可能会重塑安全研究、漏洞披露流程以及整个软件行业的补丁优先级排序。

关联报道 1

英国AI机构称基准低估了智能体能力

这意味着很多基准分数反映的可能是预算上限，而不是真正的模型上限，这会影响前沿AI系统的评估和对比方式。对于网络安全和软件开发尤其重要，因为额外计算资源会实质性改变智能体能否完成任务。

关联报道 1

Anthropic 进军药物发现

这是大型前沿 AI 公司中少见的、非常直接进入药物研发领域的公开行动，而不仅仅是向生物技术公司出售软件。若能推进成功，它可能进一步壮大 AI-for-science

关联报道 1

微软将Copilot重构为AI超级应用

这表明微软正在把 Copilot 从聊天式助手转向更广泛的生产力平台，并通过智能体功能实现商业化。它也说明 AI 助手市场正在快速向“超级应用”形态收敛，微软、Anthropic 和

关联报道 1

Stories

当日精选 8 条

The Decoder

7月4日 00:49 UTC·#security

AI 找漏洞推动漏洞报告激增

Epoch AI 表示，已报告的安全漏洞数量出现了大幅飙升：2026 年 6 月，21 个组织共报告了大约 1,500 个高严重性和关键级 CVE。这个数字比此前的月度纪录高出 3.5 倍以上，而这一增长似乎与 AI 模型被用于自动寻找漏洞有关。

如果 AI 系统确实显著提高了漏洞发现速度，那么它们可能会重塑安全研究、漏洞披露流程以及整个软件行业的补丁优先级排序。这一趋势也说明，具备行动能力的 AI 工具正在同时放大防御和攻击两方面的安全能力。

Epoch AI 记录到软件漏洞报告出现了明显飙升，并将其描述为高严重性和关键级 CVE 的大规模增长。2026 年 6 月，21 个组织共报告了大约 1,500 个此类漏洞，这一数字比此前的月度纪录高出 3.5 倍以上。文章认为，这次增长并非偶然，而是 AI 辅助漏洞发现浪潮的结果。一个重要推动因素是 Anthropic 在 4 月宣布，Claude Mythos Preview 可以自主发现软件漏洞。

Anthropic 还表示，在公开发布之前，受信任的合作伙伴就已经在使用该模型来发现并修复漏洞。报道进一步称，Anthropic 的 Glasswing 计划迄今已经发现了超过 10,000 个高严重性或关键漏洞，不过其中一些尚未公开。OpenAI 的 Daybreak 计划也被认为很可能在推动这一激增。整体来看，文章传达的信息是：AI 模型正在迅速改变严重漏洞的发现与报告规模。

文章将这次激增与 Anthropic 在 4 月宣布 Claude Mythos Preview 可以自主发现软件漏洞联系起来，并指出在公开发布前，受信任的合作伙伴就已经在使用它。文章还提到，Anthropic 的 Glasswing 计划迄今已发现超过 10,000 个高严重性或关键漏洞，其中一些尚未公开，而 OpenAI 的 Daybreak 计划也很可能在推动这一增长。

查看单篇正文查看原文

The Decoder

7月4日 00:14 UTC·#ai-evaluation

英国AI机构称基准低估了智能体能力

英国AI安全研究所（AISI）表示，固定计算预算的基准测试会系统性低估AI智能体的真实能力。在覆盖七个基准的测试中，给模型更多测试时计算资源后，成功率最高提升了25%，其中在网络安全和软件工程任务上的提升最明显。

英国AI安全研究所（AISI）研究了前沿AI智能体在不同测试时计算预算下的表现，并得出结论：标准的固定预算评测会明显低估模型能力。研究人员在七个基准上测试了模型，发现随着允许使用更多tokens，性能往往会继续提升。在网络安全任务中，大约8%的问题只有在预算超过1000万tokens后才被解决，有些任务甚至需要5000万tokens或更多。在TerminalBench 2.0和SWE-Bench Pro等软件工程基准上，当预算从100万tokens提高到1000万tokens时，成功率大约提升了25%。在Humanity's Last Exam这类数学和学术任务上，提升幅度大约为22%，直到500万tokens仍然有效。

相比之下，HealthBench上的提升较弱，所有模型都在标准预算内达到了平台期，这说明额外计算资源最能帮助模型自行验证结果的场景，比如运行代码或测试漏洞利用。研究还发现，人类专家完成任务所需时间与智能体消耗的tokens数量之间存在幂律关系：一分钟的任务可能要花费智能体成千上万tokens，一周的任务则可能需要数十亿tokens。AISI特别提到一个名为“The Last Ones”的网络安全任务，人类专家大约需要20小时完成，而所有受测模型都无法在少于3000万tokens的预算下解决它。研究最后指出，新一代模型从额外计算资源中获得的收益远高于旧模型，因此基于固定预算得出的前沿能力估计可能落后于真实情况。

AISI发现，在网络安全任务中，大约8%的任务只有在预算超过1000万tokens时才被解决，有些任务甚至需要5000万tokens或更多。研究还发现，新模型从额外计算资源中获益更大，能力提升体现在可解更难任务、成功更稳定以及所需tokens更少这几个方面。

查看单篇正文查看原文

The Verge AI

7月3日 21:56 UTC·#anthropic

Anthropic 进军药物发现

Anthropic 发布了 Claude Science，这是一个面向科学家的“AI 工作台”，把分散的研究工具和数据集整合到一个环境中，并且可以生成图表和可视化内容。该公司还表示，自己也将开始研发药物，首先聚焦于被忽视疾病的治疗方案。

这是大型前沿 AI 公司中少见的、非常直接进入药物研发领域的公开行动，而不仅仅是向生物技术公司出售软件。若能推进成功，它可能进一步壮大 AI-for-science 市场，并加速生物技术和制药行业的早期研究。

在本周早些时候举行的 “The Briefing: AI for Science” 活动上，Anthropic 发布了 Claude Science，这是一款面向科学家的新型 AI 工作台。该系统把研究人员常用的工具和数据集整合到一个环境中，还可以生成图表和可视化内容。Anthropic 将这次发布描述为 AI 能够显著加快科学发现以及医疗干预开发的又一例证，并强调已经有大量生物技术和制药客户在使用 Claude。

更进一步，Anthropic 还宣布自己也要开始研发药物。公司生命科学负责人 Eric Kauderer-Abrams 表示，首批重点将是针对“被忽视疾病”的治疗方案。这意味着 Anthropic 不只是向药企提供软件工具，而是要直接进入药物发现领域，成为少数公开尝试自己做药的前沿 AI 公司之一。

这一动作发生在其他 AI 公司也在积极争夺科学和制药客户的背景下，包括 OpenAI、Amazon 和 Google 等都已推出各自的生命科学工具或平台。但 Anthropic 的做法更进一步，因为它暗示公司希望真正参与药物研发本身，而不仅仅是提供支持研发的软件。这也使它处于一个特殊位置：一边向其他药企出售软件，一边又可能与这些药企形成竞争关系。

不过，Anthropic 对自己的药物开发计划给出的细节非常少。Kauderer-Abrams 没有说明如果找到有前景的候选药物，公司接下来会怎么做；Anthropic 也没有回应外界关于首批瞄准哪些疾病，以及是否会与其他公司合作完成实验室工作、动物实验、临床试验或生产制造等问题。整体来看，这项计划仍然处于非常早期、相当开放的阶段。

The Verge 采访的专家表示，这种模糊性也反映了整个 AI 药物研发热潮本身的不确定性。剑桥大学教授、AI 生物技术公司 CardiaTec 联合创始人 Namshik Han 指出，“AI drug discovery” 是一个非常宽泛的概念，AI 可以被用在药物发现的每一个环节，从寻找和优化化合物，到研究分析、临床试验，甚至制造环节。伦敦大学学院教授 Matthew Todd 也认为，这个说法更像一个“包罗万象”的术语，因为 AI 其实已经渗透到药物研发和科研的很多方面。

两位专家都承认，AI 正在改变药物开发流程。Han 提到阿斯利康、诺和诺德和 GSK 等大型药企都在推进相关项目，并表示 AI 已经可以帮助生成潜在药物思路，比如提出可能与疾病相关靶点相互作用的新分子。Todd 则认为，AI 的价值在于加速研究并帮助检验新的药物想法。

但他们也强调，距离 AI 设计的药物真正进入患者体内，还有很长的路要走。Todd 说，行业距离 AI 设计药物获得监管批准仍然很远，而且药物发现过程不可能完全自动化，整条链条都需要人类持续参与和监督。他和 Han 还指出，公开可用且高质量的实验数据不足，例如化学物质在人体中的行为数据有限，可能会进一步拖慢进展。

Anthropic 将 Claude Science 定位为推动科学发现和医疗干预加速的一部分，并表示它已经在服务许多生物技术和制药客户。不过，公司几乎没有说明具体会瞄准哪些疾病、如果找到有前景的候选药物会怎么做，也没有说明是否会依赖合作伙伴完成实验室工作、动物测试、临床试验或生产。

查看单篇正文查看原文

The Decoder

7月4日 03:24 UTC·#microsoft

微软将Copilot重构为AI超级应用

据报道，微软正在准备一个新的 Copilot 版本，计划于 8 月发布，并将消费者版和企业版应用合并为一个统一应用。该方案还会加入付费的 AI 编码工具，以及名为 AutoPilot 的新后台智能体，用于处理日程安排和邮件摘要等任务。

这表明微软正在把 Copilot 从聊天式助手转向更广泛的生产力平台，并通过智能体功能实现商业化。它也说明 AI 助手市场正在快速向“超级应用”形态收敛，微软、Anthropic 和 OpenAI 都在尝试把聊天、编码和工作流自动化整合到一个产品里。

据报道，微软正在对 Copilot 进行又一次重大重构，新的版本预计会在 8 月发布。公司计划把面向消费者和企业的 Copilot 应用合并成一个统一产品。这个新应用还将加入 AI 编码工具，以及一组名为 AutoPilot 的后台智能体。AutoPilot 智能体可以在不需要用户持续交互的情况下处理日程安排、邮件摘要等任务。报道称，微软会对这些新增的高级功能收取额外费用。该计划来自《The Information》看到的一份内部备忘录。

备忘录中，执行副总裁 Jacob Andreou 表示，团队已经剔除那些“不起作用”的功能，包括 Copilot Podcasts 和 Copilot Labs。他还强调，Copilot 应该专注于“真正的工作”，并以结果为导向进行优化，而不是为了“智能本身”而追求更多能力。这个方向让 Copilot 更接近 Anthropic 的 Claude Code 和 OpenAI 的 Codex 所代表的那种一体化 AI“超级应用”思路。与此同时，微软还宣布成立一家新的公司，专门推动 AI 在企业内部落地，工程师会直接进入各部门，把 AI 嵌入工作流程。综合来看，这些动作表明微软认为仅靠聊天机器人提供的价值有限，下一阶段更重要的是智能体和深度嵌入工作的工具。

根据《The Information》提到的内部备忘录，微软希望 Copilot 聚焦“真正的工作”，并“以结果为导向”进行优化，而不是为了“智能本身”而继续堆功能。公司还在移除一些表现不佳的实验项目，例如 Copilot Podcasts 和 Copilot Labs，这说明产品方向正在收缩，侧重更明确的核心能力。

查看单篇正文查看原文

The Decoder

7月4日 01:11 UTC·#anthropic

Claude Code 面临双向中国访问限制

Anthropic 正在加强阻止中国公司访问 Claude Code，而据报道，阿里巴巴也在禁止员工使用 Claude Code，并要求删除所有 Claude 模型。此举发生在外界质疑 Claude Code 可能包含识别中国相关用户的隐藏代码，以及担忧模型蒸馏问题的背景下。

这一事件表明，AI 模型的可用性正越来越多地受到地缘政治、类似出口管制的限制以及企业内部安全规则的影响，而不只是产品本身是否可用。它也说明，围绕模型蒸馏的担忧正在推动中西方公司限制跨境使用 AI 工具。

据报道，Anthropic 正在加大力度，阻止中国公司使用 Claude Code。文章援引《金融时报》称，Anthropic 的服务条款已经明确禁止向受中国控制的公司出售服务，但一些企业仍通过云服务、新加坡海外子公司或 VPN 绕过限制。由此，Claude Code 不再只是一个简单的访问控制问题，而变成了合规和执法问题。与此同时，《The Information》称，阿里巴巴正在禁止员工使用 Claude Code，并要求他们删除所有 Claude 模型。

该禁令源于外界报道称，Claude Code 里曾出现隐藏代码，可标记位于中国或与中国实验室有关的用户。Anthropic 的 Thariq Shihipar 表示，这只是今年 3 月启动的一项实验，目的是减少账号滥用和模型蒸馏，并称现在已经由更强的防护措施替代。Anthropic 之前也曾指控阿里巴巴、DeepSeek、Moonshot AI 和 MiniMax 利用 Claude 的输出进行蒸馏，并训练更小的竞争模型。整体来看，这起事件显示，围绕 AI 工具的访问、滥用防护和跨境控制，双方都在同步收紧。

Anthropic 的服务条款明确禁止向受中国控制的公司销售，但《金融时报》称，蚂蚁金服和字节跳动等公司仍通过云服务、新加坡海外子公司或 VPN 绕过限制。Anthropic 的 Thariq Shihipar 表示，隐藏代码行为是 3 月的一项实验，用于遏制账号滥用和蒸馏，之后已被更强的防护措施取代。

查看单篇正文查看原文

The Decoder

7月3日 19:16 UTC·#ai-models

桥水微调开源模型胜过GPT和Claude

桥水和 Thinking Machines Lab 表示，他们微调后的开源权重 Qwen3-235B 模型在内部金融文档评测任务中优于主流商业模型。根据他们自己的测试，该模型准确率达到 84.7%，而他们测试过的最佳前沿模型为 78.2%，运行成本还低了近 14 倍。

这一结果表明，企业 AI 的表现可能通过专有领域数据的微调大幅提升，而不必只依赖公开基准。对于金融团队来说，这意味着可以用更低成本自动化处理需要判断的文档筛选，同时不必把敏感信息交给外部模型提供商。

桥水和 Thinking Machines Lab 报告称，他们训练出一个用于金融文档分析的开源权重 AI 模型，并且在内部评测中优于领先的商业系统。这个项目关注的不是更快地阅读文件，而是自动化投资者日常工作中反复进行的判断：哪些信息真正重要。为模拟这一工作流，研究人员定义了六项实际任务，包括判断一篇金融文章是否值得高管关注，以及解读央行文件是否暗示未来利率方向。报告还举例说明，表面相似的标题在金融语境中可能有完全不同的重要性，因为它们对市场的直接影响不同。第一轮测试中，Gemini、Claude 和 GPT 等前沿模型在基础提示下的准确率只有大约 50%。

即便加入更详细的指令和三级相关性分类，成绩也只提升到 70% 多一点，仍低于团队设定的 80% 可信部署门槛。随后，研究人员使用桥水的专有样本对 Qwen3-235B 进行微调。由于廉价外包标注存在较多噪声，他们还采用了模型辅助复核流程，把有争议的样本交给投资专家修正。根据报告，微调后的模型准确率达到 84.7%，高于他们测试过的最强前沿模型 78.2%，运行成本还几乎低了 14 倍。作者也承认这不是独立基准测试，但认为它说明大型模型厂商仍然没有掌握所有有价值的数据，企业私有数据和人类经验依然有很大提升空间。

报告描述了六项投资者式任务，例如判断一篇金融文章是否与高管相关，或一份央行文件是否预示未来利率变化。作者称，使用基础提示时，GPT、Claude 和 Gemini 的准确率大约只有 50%，即便加入更强的指令，也只能提升到 70% 多一点，低于他们设定的 80% 部署门槛。

查看单篇正文查看原文

The Decoder

7月3日 16:53 UTC·#ai-video-generation

Kling 融资 20 亿美元，筹备港股上市

快手旗下 AI 视频业务 Kling 已融资约 138.2 亿元人民币，约合 20.4 亿美元，投后估值达到 180 亿美元。报道称，该业务正在筹备分拆，并计划在香港交易所上市。

这对中国最受关注的生成式 AI 视频创业公司之一来说是一笔重要融资，说明投资者仍然看好 AI 内容工具的增长潜力。它也进一步强化了中国 AI 公司赴港上市的整体趋势。

据《华尔街日报》报道，快手旗下 AI 视频业务 Kling 已从投资者处融资约 20.4 亿美元。此次融资对应的估值达到 180 亿美元，显示出中国生成式 AI 业务仍然受到资本市场高度追捧。本轮融资由 CPE、国方投资、BlueFive、腾讯和中信证券领投。报道还称，后续仍可能有更多投资者加入，因此总融资额最高可能扩大到 30 亿美元。如果最终达到这一规模，快手在 Kling 的持股比例将降至 68.33%。

消息人士早在 5 月就表示，快手计划将 Kling 分拆，并在香港交易所上市。文章指出，Kling 虽然是快手的核心业务之一，但目前仍处于商业化早期阶段。与此同时，越来越多中国 AI 公司正排队赴港 IPO，MiniMax 和智谱 AI 近期已经上市，一些项目还得到了腾讯和阿里巴巴等战略投资者支持。在视频生成市场中，Kling 还要面对 Google 的 Veo 3.1、Runway 的 Gen-4.5 和字节跳动的 Seedance 等竞争对手，而且它最近刚推出 Kling 3.0 视频模型。

本轮融资据称由 CPE、国方投资、BlueFive、腾讯和中信证券领投，如果有更多投资者加入，总额可能升至 30 亿美元。若按这一规模推进，快手在 Kling 的持股比例将降至 68.33%，而 Kling 虽然是核心业务之一，但仍处于变现早期阶段。

查看单篇正文查看原文

Simon Willison

7月4日 05:25 UTC·#ai-impact

Josh W. Comeau称AI冲击课程销售

2026年7月3日，Josh W. Comeau表示，他新上线的课程《Whimsical Animations》目前的销量大约只有常规首发销量的三分之一。他还说，自己现有的课程销售也比去年明显下滑，并把主要原因归结为AI。

这段话揭示了开发者教育市场面临的一个真实经济压力点：AI可能正在通过降低学习紧迫感、并提供随时可用的个性化辅导，削弱人们购买付费课程的需求。如果这一趋势持续下去，独立课程创作者、在线教育平台，以及围绕技术培训的整个创作者经济都可能受到影响。

2026年7月3日，Simon Willison发布了一段来自Josh W. Comeau的引述，内容是他自己的课程销量出现了明显下滑。Comeau说，他新推出的第三门课程《Whimsical Animations》目前的销量预计只有通常首发水平的三分之一左右。与此同时，他另外两门老课程的销售也比去年明显减少。Comeau认为原因可能有很多，但他觉得最大的因素是AI。他解释说，AI对开发者教育的冲击主要有两个方面。第一，很多人开始怀疑开发者工作未来几个月是否还存在，因此不太愿意再花时间和金钱学习新的开发技能。

第二，即使人们仍然想学习，LLM也能提供个性化辅导，从而降低购买付费课程的必要性。Comeau还表示，他与几位课程创作者交流后发现，大家都看到了相同的趋势。根据他的说法，很多人的收入下降了50%以上，内容互动也变少了。他最后指出，用户正在转向LLM，而这些模型会吸收创作者的内容并“原样吐出”，却没有获得授权或给予补偿。整段发言更像是对行业变化的观察，而不是一次产品发布或技术突破。

Comeau把这种影响描述为“双重打击”：一部分潜在学习者担心开发者岗位前景不明，另一部分则可以直接用LLM做个性化辅导，因此不再购买课程。他还说，他和其他课程创作者交流后发现大家都有类似趋势，包括收入下降超过50%以及内容互动减少。

查看单篇正文查看原文

The Decoder

7月3日 19:05 UTC·#meta

Meta 的 AI 智能体推进放缓

马克·扎克伯格在一次内部全员大会上表示，Meta 的 AI 智能体相关进展没有达到预期速度，围绕这些智能体进行的组织重组也没有按计划那样顺利。他还说，过去四个月里，智能体式开发的推进轨迹并没有像公司预期的那样加速。

Meta 已经把 AI 作为最高级别的战略重点，因此进展慢于预期说明公司即使投入巨资并积极招揽人才，执行层面仍可能遇到挑战。这个延迟也会影响 Meta 在 AI 产品、基础设施，以及潜在的新收入来源（例如云服务）上的更大布局。

马克·扎克伯格在周四的一场内部全员大会上告诉员工，Meta 的 AI 智能体相关工作推进速度低于预期。根据 Reuters 获得的录音，他表示，围绕这些智能体进行的重组并没有像本可以那样“顺畅”，管理层对节奏的判断也出现了偏差。扎克伯格还说，过去四个月里，智能体式开发的走势并没有像公司预期的那样加速，新的组织结构带来的投入“目前还没有兑现成果”。这一表态之所以重要，是因为过去一年扎克伯格一直在全力追赶 AI 竞争对手。Meta 让 Alexandr Wang 负责 AI 部门，并将其更名为 Meta Superintelligence Labs，同时还用高额薪酬去争夺顶尖人才。Meta 还在 4 月发布了新系列中的首个模型 Muse Spark，虽然它在基准测试中表现不错，但仍未达到 OpenAI 或 Anthropic 的水平。

5 月，Meta 又裁掉了大约 10% 的全球员工，并将约 7,000 名员工调入 AI 团队，以支持这次重组。公司计划在今年最多投入 1,450 亿美元建设 AI 基础设施，扎克伯格表示，他预计未来三到六个月会看到更具体的结果。Bloomberg 还报道称，Meta 正在建设云业务，打算把多余的 AI 算力卖给外部客户。与此同时，AI 负责人 Alexandr Wang 在同一场大会上给出了更乐观的说法，称代号 Watermelon 的下一代模型在未公开的基准上已经追上了 OpenAI 的 GPT-5.5。Wang 随后在 X 上表示，扎克伯格谈的是整个行业的进展，而不是 Meta 自身的 AI 工作，并称针对编程和智能体能力的重大升级很快就会到来。除此之外，CTO Andrew Bosworth 还回应了备受争议的鼠标追踪软件问题，表示内部审查发现没有员工数据被用于 AI 训练；如果该项目在审查结束后重启，将改为“自愿加入”模式。

Meta 在 5 月裁减了约 10% 的全球员工，并将约 7,000 名员工调入 AI 团队，随后围绕 AI 智能体进行了重组。就在同一场全员大会上，AI 负责人 Alexandr Wang 的口径更乐观，他称代号为 Watermelon 的新模型在未说明的基准上已经追平了 OpenAI 的 GPT-5.5。

查看单篇正文查看原文