Story 07 · 260324

流式专家推动超大 MoE 模型本地运行

Simon Willison 强调了“流式专家”技术的快速进展：推理时不再把整个 MoE 模型装入内存，而是按需从 SSD 读取所需专家权重。新的案例包括在 M2 Max MacBook Pro 的 96GB 内存上运行 1 万亿参数的 Kimi K2.5，以及在 iPhone 上以约每秒 0.6 个 token 运行 Qwen3.5-397B-A17B。这项技术有望让超大规模 MoE 模型在内存受限的消费级设备上变得可用，从而降低本地推理的硬件门槛。它对边缘 AI 很重要，因为它用存储带宽换取内存容量，为在数据中心之外运行前沿级模型打开了路径。其核心思路是只为每个 token 流式加载当前激活的专家权重，这与 MoE 模型非常契合，因为一次只会用到部分专家。已报告的里程碑包括：Qwen3.5-397B-A17B 在 48GB 内存中运行、具有 320 亿活动权重的 Kimi K2.5 在 96GB 内存中运行，以及 Kimi K2.5 在 128GB M4 Max 上达到约每秒 1.7 个 token 的更新结果。

rss · Simon Willison · 2026-03-24 05:09 UTC

查看原始链接返回当日摘要

#LLM#Mixture-of-Experts#Model Inference#Edge AI#Hardware Optimization

Why It Matters

为什么值得看

这篇文章本身较为简短，主要是在汇总社交媒体上的实验结果，而不是承载大量评论讨论。可见的社区信号主要来自多位独立开发者的快速复现与持续优化，覆盖了笔记本、手机以及更新的 Apple Silicon 设备。

Summary

核心内容

Background

背景补充

Mixture-of-Experts（专家混合）模型把容量分散到许多称为“专家”的专用子网络中，但对于任意一个 token，通常只会激活其中少数几个专家。这意味着模型的总参数量可以非常巨大，而每个 token 的实际计算量仍然小得多。流式专家正是利用了这一特性：把不常用的专家权重放在 SSD 上按需加载，而不是把整个模型常驻在内存中。社区中的一些技术文章提到，可以流式读取数百 GB 的专家权重，同时仅在内存中保留较小的工作集。

Discussion

社区讨论

Excerpt

抓取内容节选

Simon Willison 强调了“流式专家”技术的快速进展：推理时不再把整个 MoE 模型装入内存，而是按需从 SSD 读取所需专家权重。新的案例包括在 M2 Max MacBook Pro 的 96GB 内存上运行 1 万亿参数的 Kimi K2.5，以及在 iPhone 上以约每秒 0.6 个 token 运行 Qwen3.5-397B-A17B。这项技术有望让超大规模 MoE 模型在内存受限的消费级设备上变得可用，从而降低本地推理的硬件门槛。它对边缘 AI 很重要，因为它用存储带宽换取内存容量，为在数据中心之外运行前沿级模型打开了路径。其核心思路是只为每个 token 流式加载当前激活的专家权重，这与 MoE 模型非常契合，因为一次只会用到部分专家。已报告的里程碑包括：Qwen3.5-397B-A17B 在 48GB 内存中运行、具有 320 亿活动权重的 Kimi K2.5 在 96GB 内存中运行，以及 Kimi K2.5 在 128GB M4 Max 上达到约每秒 1.7 个 token 的更新结果。

References

参考链接

Navigation

继续浏览

返回摘要页上一条新闻下一条新闻