国家级攻击者正在把通用 AI 变成网络武器
《金融时报》报道显示,伊朗军方及其网络行动人员正在使用西方 AI 模型辅助恶意软件开发与攻击策划,凸显主流模型的双重用途风险已进入实战层面。
AI 日报
今天的头条把 AI 生态的两面同时摆上台面:一边是国家级威胁行为者借助通用模型强化网络攻击,一边是欧洲迎来史无前例的 AI 数据中心投资。与此同时,搜索代理是否真的“在研究”、量子安全是否已进入倒计时、以及 AI 工具如何改变工作与招聘,也都在提醒行业:AI 正在从能力竞赛进入治理竞赛。
Overview
从 21 条资讯中筛选出 8 条
今天的头条把 AI 生态的两面同时摆上台面:一边是国家级威胁行为者借助通用模型强化网络攻击,一边是欧洲迎来史无前例的 AI 数据中心投资。与此同时,搜索代理是否真的“在研究”、量子安全是否已进入倒计时、以及 AI 工具如何改变工作与招聘,也都在提醒行业:AI 正在从能力竞赛进入治理竞赛。
《金融时报》报道显示,伊朗军方及其网络行动人员正在使用西方 AI 模型辅助恶意软件开发与攻击策划,凸显主流模型的双重用途风险已进入实战层面。
软银计划在法国投资最高 750 亿欧元建设 5 吉瓦 AI 数据中心网络,意味着算力、电力和本地产业链正在成为新的战略资源。
新研究指出,很多 AI 搜索代理更像是在调用记忆而非真正检索网页,这会影响排行榜解释和实际使用信心。
随着量子即服务扩散,企业与政府被迫更认真地考虑 256 位加密、后量子密码学和加密敏捷性。
Anthropic 一边限制面试中的 AI 使用,一边发布研究显示编码代理采用存在明显性别差距,说明 AI 已深入招聘与学术工作流。
AI 正快速从“能做什么”转向“谁在用、怎么用、代价是什么”。今天的 8 条精选故事几乎都围绕同一个主线展开:AI 的能力扩张已经同步带来了安全、基础设施、评估和组织管理的新压力。
《金融时报》报道称,伊朗军方及其网络行动人员正在使用包括 ChatGPT 在内的西方 AI 模型,帮助开发恶意软件并策划攻击。这不是抽象威胁,而是通用模型被直接嵌入进进攻性网络行动的案例。(2175)
软银宣布计划在法国投资最高 750 亿欧元,建设总容量 5 吉瓦的 AI 数据中心网络,第一阶段就将在上法兰西大区投入 450 亿欧元。这个项目不仅是基础设施扩张,也是在押注法国成为欧洲主权 AI 枢纽。(2176)
一项新研究认为,领先的 AI 搜索代理往往依赖内部知识来回答问题,而不是依赖真实网页检索。研究者提出的新基准 LiveBrowseComp 进一步指出,当前一些搜索类排行榜成绩可能高估了代理的网页研究能力。(2173)
ZDNET 报道称,量子计算正在迅速推进,但大多数组织尚未做好准备。随着量子即服务扩散,后量子密码学、加密敏捷性和密钥升级不再是远期议题,而是正在逼近的迁移任务。(2178)
Simon Willison 转述的观点认为,AI 编程代理会让模糊想法迅速变成“看起来完成了”的项目,反而诱发项目泛滥和注意力碎片化。对一些人而言,取消 AI 订阅甚至可能比继续使用更能改善专注力。(2174)
Anthropic 据报道禁止候选人在面试中使用 AI 工具,以评估独立思考能力;而其另一项研究则显示,AI 编码代理在社会科学研究中的采用存在明显性别差距,且这种差距会随学科、职业阶段与院校层级变化。(2181, 2182)
Epicure 项目把“配料搭配”拆成食谱共现与风味化学两种信号,显示模型输出会随训练数据类型而改变。它提醒我们:AI 的表现不只取决于规模,也取决于问题定义是否清晰。(2180)
今天的新闻说明,AI 产业的核心问题已经不只是“模型是否更强”,而是它们会被谁利用、如何被评估、以及支撑它们的算力和制度是否跟得上。([2175](#story-2176](#story-2173](#story-2178](#story-2174](#story-2181](#story-2182](#story-2180))
Stories
Financial Times AI
《金融时报》报道称,伊朗军方及其网络行动人员正在使用包括 ChatGPT 在内的西方人工智能模型,帮助开发恶意软件并策划攻击。该报道将其描述为主流人工智能被重新用于强化进攻性网络行动的一个具体例子。
这凸显了一个重要的双重用途人工智能风险:原本用于通用生产力的工具,也可能降低国家支持型攻击者开展网络进攻的门槛。其意义在于,更强的恶意软件开发和攻击规划能力,可能提升国家级网络行动的速度、规模和效果。
《金融时报》报道称,西方人工智能模型正在为德黑兰的网络行动提供助力。报道指出,伊朗相关人员正在利用这些系统帮助开发恶意软件,并支持攻击策划。文章将此视为一个更广泛趋势的一部分,即主流人工智能工具可以被改造用于进攻性网络用途。它描述的不是一个遥远的理论风险,而是正在真实行动中发生的滥用。
报道重点在于,这些广泛可得的模型能为国家级威胁行为者提供切实帮助。這使得该案例不仅与伊朗相关,也与整个关注双重用途人工智能风险的安全社区相关。报道还进一步强化了一个担忧:同样用于合法工作的模型,也可能被重新用于加速网络行动。从这个意义上说,这则新闻处在人工智能安全、网络安全和地缘政治的交叉点上。
这篇报道明确将西方人工智能模型与恶意软件开发和攻击规划联系起来,而不只是侦察或一般性辅助。需要注意的是,报道描述的是对现有模型的滥用,而不是伊朗自研模型,这也说明了如何阻止广泛可用的人工智能系统被用于进攻性用途是一个难题。
The Decoder

软银表示,计划在法国建设一个总容量达5吉瓦的AI数据中心网络,投资额最高可达750亿欧元。第一阶段将在上法兰西大区投入450亿欧元,计划到2031年在敦刻尔克、Bosquel和Bouchain等地建设3.1吉瓦容量。
这将成为欧洲规模最大的AI基础设施投资之一,可能重塑AI算力、能源需求和工业供应链的区域分布。它也表明法国正努力成为重要的主权AI枢纽,这与全球争夺大规模训练和推理算力的趋势相呼应。
软银计划在法国建设一个总容量达5吉瓦的AI数据中心网络,总投资最高可达750亿欧元。第一阶段就将投入450亿欧元,在2031年前于上法兰西大区建设3.1吉瓦容量。该阶段将分布在敦刻尔克、Bosquel和Bouchain等多个站点。软银称这将是其在欧洲最大的AI基础设施投资,并在马克龙总统主持的“Choose France”峰会上正式公布。孙正义表示,法国非常适合成为欧洲领先的AI基础设施中心。
软银还计划与施耐德电气在敦刻尔克建设一个数据中心组件制造集群,说明这一项目不仅需要算力设施,也需要配套的硬件和电力供应链。法国经济部长罗兰·莱斯屈尔强调,法国接入欧洲电网更快、产业生态较强,而且审批流程更简化,预计该投资将创造数千个工作岗位。在Bosquel,软银正与法国初创公司Sesterce合作建设一座大规模“AI工厂”,把能源、算力和本地合作伙伴关系结合起来。Sesterce称这一合作是欧洲主权AI基础设施未来的一个决定性时刻。报道还提到,法国拥有Mistral,这是欧盟最重要、最具代表性的本土大语言模型公司之一,这也增强了法国发展AI产业的基础。
软银是在马克龙总统的“Choose France”峰会上宣布这一计划的,并称这是其在欧洲最大的AI基础设施投资。公司表示将与施耐德电气在敦刻尔克建设数据中心组件制造集群,而Bosquel项目将与法国初创公司Sesterce合作打造一座“AI工厂”。
The Decoder

哈尔滨工业大学和小红书的研究人员发表的一项研究认为,领先的 AI 搜索代理往往依赖内部知识,而不是真正进行网页研究。研究团队还提出了 LiveBrowseComp,这是一个由近期、时效性很强的问题组成的新基准,理论上模型不应仅靠训练记忆就能答出。
这些发现表明,现有的 BrowseComp 类成绩可能高估了 AI 代理真正的网页研究能力。这对依赖这些系统进行搜索、事实核查或工具调用的用户都很重要,因为排行榜上的高分可能更多反映了记忆能力,而不是真正的信息检索能力。
哈尔滨工业大学和小红书的研究人员发表的一项研究认为,领先的 AI 搜索代理往往依赖内部知识,而不是真正进行网页研究。研究团队还提出了 LiveBrowseComp,这是一个由近期、时效性很强的问题组成的新基准,理论上模型不应仅靠训练记忆就能答出。 这些发现表明,现有的 BrowseComp 类成绩可能高估了 AI 代理真正的网页研究能力。
这对依赖这些系统进行搜索、事实核查或工具调用的用户都很重要,因为排行榜上的高分可能更多反映了记忆能力,而不是真正的信息检索能力。 在闭卷测试中,多个模型仍然表现出惊人的成绩:MiniMax M2.5 在没有任何搜索工具的情况下就解决了 44.5% 的 BrowseComp 任务,而 Kimi K2.6 在 BrowseComp-ZH 上达到了 62%。当开启搜索但移除了支持答案的文档后,性能急剧下滑,MiniMax M2.5 降至 8.0%,Kimi-K2.6 降至 2.3%,这说明当搜索无法验证模型先验猜测时,反而会干扰代理。
在闭卷测试中,多个模型仍然表现出惊人的成绩:MiniMax M2.5 在没有任何搜索工具的情况下就解决了 44.5% 的 BrowseComp 任务,而 Kimi K2.6 在 BrowseComp-ZH 上达到了 62%。当开启搜索但移除了支持答案的文档后,性能急剧下滑,MiniMax M2.5 降至 8.0%,Kimi-K2.6 降至 2.3%,这说明当搜索无法验证模型先验猜测时,反而会干扰代理。
ZDNET AI

ZDNET 报道称,量子计算正在快速发展,但大多数组织尚未为其带来的安全变革做好准备。文章指出,专家正敦促尽快从 128 位加密过渡到 256 位加密,同时警告量子人才正在成为新的瓶颈。
如果具备密码学相关能力的量子计算机真的到来,它们可能削弱当今大量加密体系,并暴露原本被认为安全的数据、系统和业务流程。这使得后量子密码学和加密敏捷性成为企业、政府和安全厂商的紧迫任务。
ZDNET 认为,量子计算正在比大多数企业的准备速度更快地变得现实。文章把当前局面描述成一种“双重现实”:量子系统未来可能带来重大收益,但也会给现有加密体系带来严重安全风险。文中引用 MIT 的《Quantum Index Report》称,至少有二十多家制造商已经在商业化提供 40 多个量子处理器单元(QPU),而“量子即服务”正在让更多人可以接触到这些系统。尽管如此,MIT 研究人员指出,现有 QPU 仍未达到化学模拟或密码分析等大规模商业应用所需的水平。文章还引用 IBM Institute for Business Value 的研究称,行业尚未进入量子计算机在真实问题上全面超越经典计算机的阶段,但组织现在就应开始调整运营、基础设施和合作伙伴关系。
文章提到,量子计算的早期实际应用已经出现在分子建模、制药领域,未来还可能在供应链和物流优化中发挥作用。至于安全问题,文章警告说,量子计算机可以通过同时尝试大量可能性来破坏今天许多加密算法。Fujitsu 的 Tim Steward 表示,不能再默认“加密就等于安全”,安全团队必须重新审视加密策略。他建议尽快从 128 位加密升级到 256 位加密,并称这一做法有望在未来二十年内继续保护系统。文章最后引用 Palo Alto Networks 高管 Anand Oswal 的观点称,到本 दशक末,具备密码学相关能力的量子计算机可能会破解支撑全球经济的加密体系,因此各国政府已经开始采取行动。
文章引用了 MIT 的《Quantum Index Report》,称至少有二十多家制造商正在商业化提供 40 多个量子处理器单元(QPU),而“量子即服务”模式正在扩大获取渠道。文章同时指出,尽管实用安全风险可能在本 दशक内上升,但当前的 QPU 仍未达到大型商业工作负载所需的成熟度。
Simon Willison
Simon Willison 转发并讨论了 David Wilson 的反思:AI 编程工具会把一个简单需求变成半途而废的项目,并不断放大低投入的副业式项目。文章认为,取消 AI 订阅也许是减少这种注意力消耗的最实际办法。
这篇文章把 AI 编程代理不只是看作生产力工具,也看作可能诱发注意力风险的来源,因为它们会鼓励项目泛滥和半途而废的工作。这对开发者和知识工作者很重要,因为他们需要判断更快的产出是否真的带来了可持续的价值。
Simon Willison 引用了一篇 David Wilson 的文章,认为 AI 编程工具太过顺手,反而会鼓励分散、低承诺的项目泛滥。Wilson 说自己最终做出了 16 个以上原本并不打算真正去做的项目,往往只是从“帮我写一个快速脚本”开始,结果一个小时过去了,原始问题却没有解决。Wilson 形容这种技术对注意力的伤害“非常可怕”,甚至称其为“热核级 ADHD 放大器”。Willison 觉得这个判断很有共鸣,因为现在的编程代理可以把一个模糊想法迅速变成看起来像经过长期打磨的项目,而且还带有测试和文档。即使代码本身没问题,一个人也不可能长期照顾那么多这样的项目。
若这些项目很快就被放弃,那么它们最初被创建出来的价值就值得怀疑。Wilson 认为,自己目前管理 AI 的最好办法就是减少使用,因为一种几乎不需要摩擦、却能提供廉价奖励的工具最终只会成为负担。Willison 说,他希望真正需要培养的能力是自律,但他也开玩笑说,自己为此努力了几十年都没搞定。文章最后还提到,Hacker News 上一些患有 ADHD 的评论者却有相反体验,他们认为 AI 帮助自己维持专注、完成项目,并感到有人支持,而不是更分心。
Willison 表示,编程代理可以让他在不到一小时内把模糊想法变成带测试和文档、看起来很完善的项目,这也让人更容易做出很快就被放弃的东西。与此同时,他还提到 Hacker News 讨论中有 ADHD 用户表示效果相反:AI 帮助他们完成副项目、保持收件箱清零,并且感觉更专注。
The Decoder

Kaikaku.AI 的新研究项目 Epicure 提出了三个几乎相同的模型:Cooc、Chem 和 Core。Cooc 只从真实食谱中的配料共现关系学习,Chem 只从 FlavorDB 中共享的风味分子关系学习,而 Core 则把两种信号结合起来。
这项工作表明,AI 配料推荐系统会因为训练数据是食谱还是化学信息,而给出不同类型的答案。把这两种信号分开,有助于让食物推荐系统更有用、更可解释,也更适合跨菜系和跨文化场景。
文章介绍了 Epicure,这是初创公司 Kaikaku.AI 推出的一个新配料模型,旨在把此前经常被混在一起的两种烹饪相似性区分开来。第一种是食谱共现,也就是哪些配料会在真实菜谱中一起出现;第二种是风味化学相似性,也就是哪些配料共享相同的分子和香气化合物。为验证这种差异,研究人员构建了三个几乎完全相同的模型:用于食谱共现的 Cooc、用于化学相似性的 Chem,以及结合两者的 Core。结果表明,相同的问题会得到明显不同的答案,例如输入 chicken 时,Cooc 会给出 garlic、onion 和 black pepper 这类常见搭配,而 Chem 则会返回 beef 或 pork 这类风味相近的食材。
输入 basil 时,Cooc 更像是给出 parsley、olive oil 和 parmesan 这样的食谱伙伴,而 Chem 则会给出 oregano、tarragon 和 rosemary 这样的草本亲缘食材。作者还表示,Chem 在一些训练数据中没有被直接编码的概念上表现更好,比如甜、酸、苦等风味属性,以及蛋白质和脂肪含量等营养属性,因为化学联系似乎提供了一种有用的捷径。Epicure 的语料来自 11 个来源、7 种语言的 414 万份食谱,包括中文、俄语、越南语、土耳其语、印尼语和德语。项目还提供了一个方向控制界面,用户可以把某个配料朝向目标菜系或概念移动,从而改变结果的文化风格。
Epicure 训练于来自 11 个来源、7 种语言的 414 万份食谱,且借助基于 Claude 和 Gemini 的清洗流程,把大约 20 万个原始术语整理为 1790 个干净的配料名称。这个语料库仍然不均衡,只有大约三分之一的配料直接锚定在化学数据库中,其余则通过相关配料间接继承化学信号。
The Decoder

据报道,Anthropic正在禁止候选人在求职面试中使用AI工具,除非明确允许使用。彭博商业周刊称,候选人最多要经历五轮面试和测试,其中包括一轮要求很高的“文化面试”,会考察价值观、世界观和伦理判断。
这一政策显示出,在AI工具已经可以轻易帮助候选人准备面试和即时回答的情况下,一家头部AI实验室正在尝试评估候选人未借助工具时的独立思考能力。它也说明,领先AI公司的招聘正越来越强调文化契合、伦理判断,以及“应该由什么样的人来构建前沿模型”这一更大的争论。
据报道,Anthropic正在禁止候选人在求职面试中使用AI工具,除非公司明确允许。根据彭博商业周刊,Anthropic的招聘流程最多可能包括五轮面试和测试。最重要的环节之一是所谓的“文化面试”,在这一轮中,候选人会被问到自己的价值观、世界观,以及面对伦理困境时会如何回应。报道称,这类面试比许多其他公司的流程更严格,目的在于观察申请者是否能独立、批判性地思考Anthropic本身。这样的做法也符合创始人Dario Amodei的风格,他常常把AI描述为既强大又可能带来生存风险的技术。
文章称,如果文化面试不过关,候选人的求职机会基本就会终结。报道还把这一招聘流程放在火热的AI人才市场背景下,指出Anthropic的薪酬最高可达85万美元,外加股权。文章提到,OpenAI和Anthropic正在造就数十名千万富翁,这让没有赶上这波红利的开发者感到焦虑。报道最后补充说,一些申请者平均会花约4600美元请面试辅导,其中甚至包括由OpenAI和Anthropic现任员工匿名提供的辅导服务。
文章称,Anthropic的文化面试尤其关键:如果这一轮不过,候选人几乎就没有机会了。文章还提到,薪酬最高可达85万美元,外加股权激励;一些申请者会花约4600美元请教练做准备,其中甚至包括由OpenAI和Anthropic现任员工匿名提供的面试辅导。
The Decoder

Anthropic对社会科学研究者的AI使用情况进行了研究,发现通常具有男性名字的研究者使用编码代理的频率是通常具有女性名字者的两倍多。这个差距在相同学科和职业阶段内仍然存在,而且采用率还会随学科、大学排名和职业阶段而变化。
这项发现表明,AI编码代理在学术工作流中的融入可能并不均衡,从而放大现有的研究产出和自动化获取差距。由于这些工具越来越多地用于数据分析和代码生成,采用率差异可能会影响谁先从AI赋能的研究中受益。
Anthropic研究了社会科学家如何使用AI编码代理,例如Claude Code,这类工具可以自动编写程序代码。公司发现,男性使用这些工具的人数远多于女性,通常被识别为男性名字的研究者使用编码代理的频率是通常被识别为女性名字者的两倍多。即使在相同学科和相同职业阶段内,这种性别差距仍然存在。不同学科之间的采用率也差异很大,经济学家的使用率最高,达到39%,而教育研究者最低,只有4%。
职业阶段同样影响明显,博士生和博士后使用编码AI的频率远高于教授。顶尖25所大学的研究者也更可能使用这些工具,采用率比其他同行高40%。最主要的用途是为数据分析生成代码,97%的用户这么说,而只有大约三分之一的人会用AI写文本。研究还指出,在编码代理的使用上,性别、职业阶段和大学排名造成的差距,都比一般AI使用时更大。
研究显示,经济学家的编码代理采用率最高,达到39%,而教育研究者最低,仅为4%。博士生和博士后使用编码AI的频率远高于教授,顶尖25所大学的研究者使用率比同侪高40%,并且97%的用户表示其主要用途是为数据分析生成代码,而不是写文本。