Story 07 · 260324
流式专家推动超大 MoE 模型本地运行
Simon Willison 强调了“流式专家”技术的快速进展:推理时不再把整个 MoE 模型装入内存,而是按需从 SSD 读取所需专家权重。新的案例包括在 M2 Max MacBook Pro 的 96GB 内存上运行 1 万亿参数的 Kimi K2.5,以及在 iPhone 上以约每秒 0.6 个 token 运行 Qwen3.5-397B-A17B。 这项技术有望让超大规模 MoE 模型在内存受限的消费级设备上变得可用,从而降低本地推理的硬件门槛。它对边缘 AI 很重要,因为它用存储带宽换取内存容量,为在数据中心之外运行前沿级模型打开了路径。 其核心思路是只为每个 token 流式加载当前激活的专家权重,这与 MoE 模型非常契合,因为一次只会用到部分专家。已报告的里程碑包括:Qwen3.5-397B-A17B 在 48GB 内存中运行、具有 320 亿活动权重的 Kimi K2.5 在 96GB 内存中运行,以及 Kimi K2.5 在 128GB M4 Max 上达到约每秒 1.7 个 token 的更新结果。
rss · Simon Willison · 2026-03-24 05:09 UTC
Why It Matters
为什么值得看
这篇文章本身较为简短,主要是在汇总社交媒体上的实验结果,而不是承载大量评论讨论。可见的社区信号主要来自多位独立开发者的快速复现与持续优化,覆盖了笔记本、手机以及更新的 Apple Silicon 设备。
Summary
核心内容
Simon Willison 强调了“流式专家”技术的快速进展:推理时不再把整个 MoE 模型装入内存,而是按需从 SSD 读取所需专家权重。新的案例包括在 M2 Max MacBook Pro 的 96GB 内存上运行 1 万亿参数的 Kimi K2.5,以及在 iPhone 上以约每秒 0.6 个 token 运行 Qwen3.5-397B-A17B。 这项技术有望让超大规模 MoE 模型在内存受限的消费级设备上变得可用,从而降低本地推理的硬件门槛。它对边缘 AI 很重要,因为它用存储带宽换取内存容量,为在数据中心之外运行前沿级模型打开了路径。 其核心思路是只为每个 token 流式加载当前激活的专家权重,这与 MoE 模型非常契合,因为一次只会用到部分专家。已报告的里程碑包括:Qwen3.5-397B-A17B 在 48GB 内存中运行、具有 320 亿活动权重的 Kimi K2.5 在 96GB 内存中运行,以及 Kimi K2.5 在 128GB M4 Max 上达到约每秒 1.7 个 token 的更新结果。
Background
背景补充
Mixture-of-Experts(专家混合)模型把容量分散到许多称为“专家”的专用子网络中,但对于任意一个 token,通常只会激活其中少数几个专家。这意味着模型的总参数量可以非常巨大,而每个 token 的实际计算量仍然小得多。流式专家正是利用了这一特性:把不常用的专家权重放在 SSD 上按需加载,而不是把整个模型常驻在内存中。社区中的一些技术文章提到,可以流式读取数百 GB 的专家权重,同时仅在内存中保留较小的工作集。
Discussion
社区讨论
这篇文章本身较为简短,主要是在汇总社交媒体上的实验结果,而不是承载大量评论讨论。可见的社区信号主要来自多位独立开发者的快速复现与持续优化,覆盖了笔记本、手机以及更新的 Apple Silicon 设备。
Excerpt
抓取内容节选
Simon Willison 强调了“流式专家”技术的快速进展:推理时不再把整个 MoE 模型装入内存,而是按需从 SSD 读取所需专家权重。新的案例包括在 M2 Max MacBook Pro 的 96GB 内存上运行 1 万亿参数的 Kimi K2.5,以及在 iPhone 上以约每秒 0.6 个 token 运行 Qwen3.5-397B-A17B。 这项技术有望让超大规模 MoE 模型在内存受限的消费级设备上变得可用,从而降低本地推理的硬件门槛。它对边缘 AI 很重要,因为它用存储带宽换取内存容量,为在数据中心之外运行前沿级模型打开了路径。 其核心思路是只为每个 token 流式加载当前激活的专家权重,这与 MoE 模型非常契合,因为一次只会用到部分专家。已报告的里程碑包括:Qwen3.5-397B-A17B 在 48GB 内存中运行、具有 320 亿活动权重的 Kimi K2.5 在 96GB 内存中运行,以及 Kimi K2.5 在 128GB M4 Max 上达到约每秒 1.7 个 token 的更新结果。
References
参考链接
Navigation