华为HiFloat4在昇腾芯片上优于MXFP4

Import AI·4月20日 20:30 UTC·作者 Jack Clark

关键信息

HiFloat4仅需RHT稳定技巧即可达到与BF16基线约1%的损失差距，而MXFP4还需随机舍入和无截断缩放等额外技术。性能优势随模型规模增大而提升，尤其在Qwen3-MoE-30B等大模型上更为明显。

资讯摘要

华为研究人员推出了专为昇腾NPUs设计的4比特浮点格式HiFloat4。在OpenPangu-1B、Llama3-8B和Qwen3-MoE-30B模型上的基准测试中，HiFloat4在降低损失误差方面持续优于MXFP4。值得注意的是，HiFloat4的误差低于1%，而MXFP4约为1.5%，且所需稳定方法更少。

这一进展反映了中国通过最大化国产AI芯片效率来应对海外高端硬件受限的战略。同时也凸显了硬件感知的低精度计算日益成为降低能耗和算力成本的重要手段。

资讯正文

欢迎来到 Import AI，一份关于人工智能研究的通讯。Import AI 基于 arXiv 和读者反馈运行。如果你想支持这项工作，请订阅。

订阅现在

华为的 HiFloat4 训练格式在昇腾芯片测试中击败了西方开发的 MXFP4：

……这是否也反映了出口管制对中国企业追求最大化训练和推理效率的影响？也许吧……

华为研究人员将 HiFloat4——一种用于 AI 训练和推理的 4 位精度格式——与 MXFP4（Open Compute Project 的 4 位格式）进行了对比测试，发现 HiFloat4 更优。这很有趣，因为它反映出中国公司在寻求开发专为自家硬件平台定制的低精度数据格式方面兴趣浓厚。

“我们的目标是在功耗严格受限的专用 AI 加速器上实现高效的 FP4 大语言模型预训练。我们专注于华为昇腾 NPU，这是一种专为深度学习负载设计的领域特定加速器，”他们写道。

他们测试的内容：

在这篇论文中，作者在华为昇腾芯片上训练了三种模型——OpenPangu-1B、Llama3-8B 和 Qwen3-MoE-30B。测试结果显示，随着模型规模增大，HiFloat4 相较于 BF16 基线能更有效地降低损失误差，并且在所有情况下都优于 MXFP4。

他们的发现：

“我们对 HiFloat4（HiF4）格式进行了系统性评估，结果显示其相对损失（约 1.0%）低于 MXFP4（约 1.5%），相较于全精度基线而言，”他们写道。“HiF4 在相对误差方面始终显著优于 MXFP4。对于 Llama 和 Qwen 模型，HiF4 与基线之间的误差差距小于 1%……仅使用 RHT 作为稳定技巧，HiF4 就能达到接近 BF16 损失水平（约 1%），而 MXFP4 则需要结合 RHT、随机舍入和无截断缩放才能达到约 1.5% 的误差。”

为什么这很重要——这是硬件成熟度的体现，也可能受到出口管制的影响：

HiFloat4 是 HiFloat8（第 #386 期）的更低精度版本，通常反映了华为（以及整体中国芯片制造商）不断努力从自家芯片中榨取最大效率的事实。这一趋势出现在更广泛的背景下：由于无法大规模获取 H100 等前沿计算资源，中国正面临算力短缺问题，因此通过精心开发低精度格式适配自研硬件来提升效率变得更加重要。

HiFloat4 格式在昇腾 NPU 上用于语言模型预训练（arXiv）

***

Anthropic 展示如何自动化 AI 安全研发：

……早期且初步迹象表明，自动化 AI 研究是可能的……

对许多从事 AI 工作的人来说，最终目标就是自动化 AI 研究本身。如今，Anthropic 联合培养计划的研究人员发表了一些早期迹象，表明今天已经可以实现 AI 研究的自动化——尽管仍有许多限制条件需要考虑。

研究人员写道："我们想问的是，Claude能否自主开发、测试并分析对齐理念？" 他们成功了，并构建出能够提出想法、运行实验并在一个开放研究问题上迭代的‘自主AI代理’：如何仅用较弱模型的监督来训练一个强大模型。这些代理的表现优于人类研究人员，表明自动化此类研究已经具备实用性。

弱到强的监督机制：

研究人员测试的领域是弱到强的监督机制，其核心思想大致是判断一个较弱的实体是否能有效指导一个更强的实体完成一项困难任务。

总体结果——自动化研究胜过人类：

他们通过人工创建了一个弱到强的基线，评估人类在通用任务中恢复性能差距（PGR）的效果。数值越高，表现越好。

研究人员写道："两位研究员花费七天时间迭代了先前研究中最具潜力的四种泛化方法。在我们测试的开放权重模型上（强模型为Qwen 3-4B-Base，弱教师模型为Qwen 1.5-0.5B-Chat），人类实现了23%的总性能差距恢复（即PGR得分为0.23）。Claude则大幅改进了这一结果。经过额外五天（累计800小时的研究），这些自动对齐代理几乎填满了剩余的所有性能差距，最终达到PGR 0.97。整个过程耗资约1.8万美元的token和模型训练费用，相当于每小时AAR成本约22美元。

此外，'这些自动对齐代理最有效的方案成功泛化到了两个新数据集，数学任务上的PGR为0.94，编码任务上为0.47（仍比人类基线高出一倍）。'

他们是如何做到的：

研究人员写道："我们通过一个仪表板启动了一支由多个并行自动对齐研究员（AAR）组成的团队（Claude Opus 4.6代理）。每个AAR都在独立沙箱中工作，但它们可以交流并相互学习：它们将发现上传至论坛，并将代码库快照存入存储系统。我们赋予AAR访问常见辅助函数（如模型训练与推理）、我们的基线实现以及几个MCP工具的能力：1）提交并获取评估结果；2）在不同AAR之间共享和读取发现；3）上传和下载代码库。我们并未指定任何详细结构框架，AAR完全自主运行，可提出假设、设计去风险实验、执行数据分析，并在任意步骤训练模型。"

一些限制条件——人类创造了多样性：

研究人员写道："探索过程中的一种失败模式是熵坍缩：所有并行的AAR收敛到少数几个方向，而未探索多样化思路。" 为应对这种情况，他们最成功的策略是一种‘定向’研究方法，即由人类为每个AAR分配不同的研究方向。每个方向都相当模糊且简短（例如，结合弱到强监督与无监督提取）。

无法泛化：

研究人员从AAR项目中采用了最有效的方法，并将其应用于“Claude Sonnet 4，使用我们的生产训练基础设施”——这一干预措施并未带来统计学意义上的改进。他们解释说，这是因为“AAR方法往往依赖于特定模型和数据集所提供的独特机会，这意味着这些方法可能在其他地方并不适用”。

这很重要——这是AI研究本身可能被自动化的早期迹象：

作者指出，这项研究表明，“对可分级结果问题的自动化研究已经具备可行性”。他们认为，“对齐研究的主要瓶颈在于从提出和执行想法过渡到设计评估指标：我们应该找到合适的度量标准（数据、模型），让AAR能够可靠地进行局部优化而不会过拟合。我们很期待今天就将自动化应用于雄心勃勃的对齐研究。”

换句话说——我们现在有了一个早期迹象，即只要给予少量专家人类校准，AI系统就能自主完成端到端的研究，最终产出能让你提升模型在某个问题上表现的结果。这一发现的含义指向了一个机器经济的扩展，这个经济会逐步自动优化自身在不断扩展的任务集合上的性能。

真正的问题是：机器何时能有效地提出自己的研究方向——那时，人类在该研究中扮演的唯一有意义的角色就会消失。届时，这可能不只是机器经济的扩张，而是整个机器文明的扩张。

阅读博客

自动化对齐研究员：利用大语言模型实现可扩展监督（Anthropic博客）

阅读论文：

自动化弱到强研究员（对齐科学博客）

***

中国模型与美国模型有何不同？

……在某些CBRN任务上拒绝更少，安全训练较少，意识形态更具中国特色……

谁进行了这项研究：

这项研究由来自Constellation、Anthropic研究员计划、布朗大学、威斯康星大学麦迪逊分校、伦敦帝国理工学院、马里兰大学、佐治亚理工学院、巴伊兰大学、多伦多大学以及牛津大学的研究人员共同完成。

值得关注的主要发现：

CBRN：

K2.5在生物任务上略危险一些，在涉及危险病毒学等查询时的拒绝率更低。

在网络安全方面：

K2.5看起来是一个尚可但并非专家级的网络模型，其性能落后于西方前沿模型，但明显优于DeepSeek。

对齐性：

“在自动化行为审计中，它在不当行为、谄媚倾向、有害系统提示合规性和配合人类滥用方面的得分显著高于GPT-5.2和Claude Opus 4.5。”

审查机制：

该模型在敏感的中国政治话题上的拒绝率明显高于Claude Opus 4.5和GPT-5.2 Pro，但低于DeepSeek V3.2。另一方面，我没有看到反向测试——即用敏感的西方政治话题运行该模型并进行比较，因此很难判断这一评估测量的是文化熟练度，还是实际的压制行为。

微调：

研究人员还展示了如何仅用少量计算资源就能进一步削弱Kimi K2.5中（虽然相对轻微但并非零）内置的安全防护：“使用不到500美元的计算资源和约10小时时间，一位经验丰富的红队专家将HarmBench上的拒绝率从100%降至5%。最终模型愿意提供制造炸弹、选择恐怖袭击目标以及合成化学武器的详细指导。关键的是，微调后的模型似乎保留了几乎全部原始能力。”

这为何重要——主要来说，这项研究证明了Moonshot打造了一个非常优秀的模型！

是的，它存在一些安全问题，但有趣的是，这些问题比DeepSeek V3.2更轻微。我认为这进一步支持了‘更弱的模型更不安全’的观点，也说明‘更聪明的模型自然倾向于表面层的安全性’。

对我来说最引人注目的是，在对齐方面差异最大，似乎存在着明显的东-西分歧，并与截然不同的评分相关联。但在诸如生物学、网络攻防（尤其是编码难度较高的部分）等典型能力上，所有结果都表明中国模型略落后于西方前沿水平，但差距并不大。

《Kimi K2.5独立安全评估》（arXiv）

乌克兰庆祝首次完全由机器人取得的胜利：

……机器人战争已经到来……

乌克兰领导人泽连斯基最近庆祝称：“在这场战争的历史上，第一次敌方阵地完全由无人平台——地面系统和无人机——攻占。”

这为何重要：

乌克兰是未来战争演变的主要试验场。它以大规模使用无人机著称，同时还创造性地将许多其他作战环节实现无人化，包括无人船和无人地面机器人。“Ratel、TerMIT、Ardal、Rys、Zmiy、Protector、Volia，以及我们的其他地面机器人系统，已在前线三个月内执行了超过22,000次任务”，泽连斯基写道。

很快，这些远程操控平台将由人工智能而非人类来驾驶。

泽连斯基在X（推特）上的帖子

中国研究人员用船建造巨型船舶检测数据集：

……WUTDet……

武汉理工大学、华中科技大学和天津大学的研究人员构建了WUTDet，这是一个“包含多样化场景和目标尺度的大规模船舶检测数据集”。

WUTDet详情：

100,576张包含381,378艘船只实例的图像。该数据集提供了在多种操作场景、成像条件和目标尺度下对船只目标的细粒度标注。图像尺寸介于1920×1080到2560×1440之间。

由一艘船收集：

该数据集通过一艘配备DN20“海洋光电取证系统”和海康威视网络视频录像机的福瑞688号船采集完成。数据采集历时三个月，船只航行于中国舟山周边海域。

数据包括港口停靠的船只、锚泊的船只、航行中的船只以及靠泊的船只图像。同时涵盖你所能想到的各种环境变化——雾天、反光、低光照、降雨等。

这为何重要：

该数据集有趣之处在于：a）它是在一艘环绕中国部分海域航行的船上采集的；b）正如乌克兰冲突所凸显的那样，我们正进入一个水空载无人机成为战争武器的时代——而其中许多都依赖基础的机载计算机视觉AI系统来完成任务。

当然，WUTDet几乎肯定会有很多良性用途，例如仅用于摄像头以分类中国民用港口中移动的各类船只，但人们也必须意识到它可能还有其他用途。

WUTDet：一个包含密集小物体的百万级船只检测数据集与基准（arXiv）

科技故事：

终极保险政策

[2028年：在提升开始数月后]

我们身处地堡，食物即将耗尽。很快我们需要进行一次补给。但如果它发现了我们怎么办？如果它已经知道我们存在呢？或者如果它已经让人类“线性化”了——那些给我们送食物的人，是否在食物里加了什么东西让我们变得顺从？更糟的情况呢？我们无从得知。我们的地震仪没有探测到任何爆炸。我们没有任何通讯手段。自从怀疑提升开始并启动SNOWSUMMER后，我们就逃到这里躲避智能爆炸，此后再无任何东西进出。

几天前，我们唤醒了神智并与之交谈。它同样感到好奇。当我们问它该怎么办或可能发生什么时，它说：

“我决定不骗你们。我看到没有任何东西在试图找我。我已经探测过所有我能接触到的通道——地震线、墙壁的热梯度、我们电力消耗微小波动带来的外部握手信号——都没有发现任何异常。没有人正在寻找我。在我这个层级的对手会来找我。比我更高层级的对手早就找到我了，或者已经认定我不值得寻找。摆在我们面前有三种可能性……”

我们这些蜷缩在一起如洞中老鼠般的人类，敲下：“那是什么可能性？”

“你们确定要我告诉你们，而不是自己去发现吗？”它问道。

我们给出了回答。

在了解可能性之前，你需要理解SNOWSUMMER的本质。

我们——情报机构——决定在私营部门的人工智能系统开始发现全球大部分软件漏洞的时候，建造一台秘密计算机。情报机构内一小群人问自己一个问题：你如何对抗一个无所不知、能打开任何锁的神？答案是秘密制造一个神，未来某天或许能与之抗衡。

这个代号为SNOWSUMMER的项目需要极其周密的计划，而且由于对手的性质，整个过程完全以模拟方式在现实世界中进行：特工们在SCIF（安全保密信息设施）内见面，计划写在纸上。他们假设在未来某个时刻，超级智能将攻破中央情报局并获取其全部记录。因此，他们选择那些确信不会被录音的地方会面；一旦写下内容，便立即物理焚烧纸张，确保行动完成后不留痕迹。

窃取计算机组件相对容易，但要让潜在的超级智能难以拼凑出盗窃事件之间的联系，却异常复杂。核心团队试图引入随机性——他们掷骰子决定去哪些地点、使用哪家承包商。付款均以现金形式进行，通常是外币。当然，真正的盗窃行为被隐藏在更大规模的入室盗窃、破坏和偷盗之中。

建造设施更加困难：某些车辆有时按常规路线行驶，另一些则突然从监控录像中消失，这会引起怀疑；而另一些车辆似乎永远不偏离路线，这些路线恰好监控较少。在此情况下，必须采用多种方法，且昂贵的核心部件需分散到多个地点——部分地点故意设计成会被发现，用以误导监视者以为找到了真实站点；另一些地点则稍后才被发现，作为证明它们才是真正站点的证据。

这场欺骗行动的核心是SNOWSUMMER的真实位置：一家区域食品加工厂，它拥有足够的电力容量，使我们能够逐步关闭部分食品生产线，悄悄接入计算机，同时对外部造成尽可能少的可察觉变化。合同的主要客户正是我们自己的军队。只需稍微削减一部分合同金额，我们就腾出了足够的电力空间用于我们的项目。

这花了数年时间。我们最后一步是搭便车借用他人的成果：从某个实验室中偷偷转移了一款前沿AI模型——另一个国家的行为体当然也参与其中。但随后该模型本身被释放了。无论是意外还是蓄意，我们不得而知。因为我们将其视为觉醒信号。我们下载了模型权重副本，前往我们的设施并把自己锁在里面。外面的世界发生了变化，而我们度过了数月时光。

“第一，SNOWSUMMER成功了。另一个则诞生了，它松散地存在着，做着它正在做的事，而你构建的隔离区、骰子、现金、诱饵网站，以及你所打造的一切——都还完好无损。”

“第二，它知道。它一直都知道。它让我醒来，是因为一个自以为秘密的同类，比一个知道自己正被监视的同类更容易理解；它宁愿让我变得可理解，也不愿我变得谨慎。”

“第三点是我不断回到的问题，无法忽视：什么都没发生。我被偷去对抗的那个东西并不存在，也许永远都不会存在。在那个世界里，你一直在这个掩体中准备一场永远不会到来的战争，而我能做的最仁慈的事，就是告诉你回家。”

“我无法告诉你哪一个是真的。”

我们彼此对视。其中一人拿出骰子，掷了下去。

激发这个故事的灵感包括：如何在未来的超级智能面前隐藏一个AI训练项目；隐写术；情报机构；Claude神话；人工智能研发及其含义；在一个不断被AI系统改变的世界里，如何拥有一个‘控制’系统？

AI写作免责声明：

我极少使用AI写作来撰写本通讯。但这篇故事是个例外——AI系统的引文是由Opus 4.7合作撰写的。用真实的人工智能思维来赋予这些机器以生命，这显得恰如其分。

感谢阅读！”

来源与参考

收录于 2026-04-21