Import AI 457：恶意软件破坏与 Muon 问题

Import AI·5月18日 21:31 UTC·作者 Jack Clark

关键信息

SentinelOne 的拆解指出，fast16 会在内存中打补丁并使用自传播机制，最强匹配结果指向 LS-DYNA 970、PKPM 和 MOHID 等高精度工程与仿真工具。对于 Muon，研究者报告称它的更新在高矩阵上会继承行范数各向异性，导致 MLP 层中许多神经元在 warmup 期间持续获得很小的更新，并且再也恢复不过来。

资讯摘要

这一期 Import AI 先讨论了 fast16.sys，一个大约 20 年前的恶意软件案例，被描述为一种早于 Stuxnet 的破坏工具。文章引用的资料称，这个恶意软件会有选择地针对高精度计算软件，并在内存中给代码打补丁，从而篡改计算结果。攻击者还把这种载荷与自传播机制结合起来，显然希望把错误计算扩散到整个设施中。文章指出，这种做法让人联想到《三体》里的 Sophon：通过干扰实验来阻止科学进展。SentinelOne 的拆解发现，大多数被注入的模式看起来像普通的 x86 执行流劫持代码，但其中有一段不同寻常，它是一段用于高精度算术和内部数组缩放的浮点运算例程。研究人员把这些打补丁的规则转换成 YARA 特征后，在一个大规模的历史样本库中搜索，结果命中非常少，而且这些命中的程序都集中在民用工程、物理和过程仿真等高精度工具上。最强的重叠对象包括 LS-DYNA 970、PKPM 和 MOHID，文章称它们分别用于碰撞测试、结构分析和环境建模。新闻稿将其概括为一种破坏科学项目或工程系统的方式：通过引入细小但系统性的计算误差来拖慢研究或造成长期损害。

第二部分转向 Muon 优化器，提到 Tilde Research 的拆解发现其中存在一些奇怪的 bug，会损害模型质量。研究者表示，Muon 的更新在高矩阵上会继承行范数各向异性，这可能导致 MLP 层中相当一部分神经元永久死亡。按照他们的描述，神经元一开始是活跃的、具有较高且均匀的影响力，但很多会在学习率 warmup 期间死亡，而且之后再也无法恢复。文章认为，这会让模型在训练早期出现持续得不到充分更新的神经元。整期内容把这些发现当作一个提醒：当人们评估新的优化器时，不能只看纸面上的优点，还要关注训练过程中是否会出现难以察觉的退化。

来源与参考

收录于 2026-05-19