Import AI 457:恶意软件破坏与 Muon 问题
Import AI··作者 Jack Clark
关键信息
SentinelOne 的拆解指出,fast16 会在内存中打补丁并使用自传播机制,最强匹配结果指向 LS-DYNA 970、PKPM 和 MOHID 等高精度工程与仿真工具。对于 Muon,研究者报告称它的更新在高矩阵上会继承行范数各向异性,导致 MLP 层中许多神经元在 warmup 期间持续获得很小的更新,并且再也恢复不过来。
资讯摘要
这一期 Import AI 先讨论了 fast16.sys,一个大约 20 年前的恶意软件案例,被描述为一种早于 Stuxnet 的破坏工具。文章引用的资料称,这个恶意软件会有选择地针对高精度计算软件,并在内存中给代码打补丁,从而篡改计算结果。攻击者还把这种载荷与自传播机制结合起来,显然希望把错误计算扩散到整个设施中。文章指出,这种做法让人联想到《三体》里的 Sophon:通过干扰实验来阻止科学进展。SentinelOne 的拆解发现,大多数被注入的模式看起来像普通的 x86 执行流劫持代码,但其中有一段不同寻常,它是一段用于高精度算术和内部数组缩放的浮点运算例程。研究人员把这些打补丁的规则转换成 YARA 特征后,在一个大规模的历史样本库中搜索,结果命中非常少,而且这些命中的程序都集中在民用工程、物理和过程仿真等高精度工具上。最强的重叠对象包括 LS-DYNA 970、PKPM 和 MOHID,文章称它们分别用于碰撞测试、结构分析和环境建模。新闻稿将其概括为一种破坏科学项目或工程系统的方式:通过引入细小但系统性的计算误差来拖慢研究或造成长期损害。
第二部分转向 Muon 优化器,提到 Tilde Research 的拆解发现其中存在一些奇怪的 bug,会损害模型质量。研究者表示,Muon 的更新在高矩阵上会继承行范数各向异性,这可能导致 MLP 层中相当一部分神经元永久死亡。按照他们的描述,神经元一开始是活跃的、具有较高且均匀的影响力,但很多会在学习率 warmup 期间死亡,而且之后再也无法恢复。文章认为,这会让模型在训练早期出现持续得不到充分更新的神经元。整期内容把这些发现当作一个提醒:当人们评估新的优化器时,不能只看纸面上的优点,还要关注训练过程中是否会出现难以察觉的退化。

来源与参考
收录于 2026-05-19