MiniMax M3:百万级上下文开源权重模型
The Decoder··作者 Jonathan Kemper
关键信息
MiniMax 表示,该模型采用 MiniMax Sparse Attention,只处理选中的相关块,而不是所有 token 两两计算,从而将计算量降至二十分之一,并把输入处理速度提升了九倍以上。公司还报告了内部自治测试,M3 能连续工作数小时,生成代码和图表,并接近或达到 Opus 4.7、GPT-5.5 等模型的表现。
资讯摘要
中国 AI 公司 MiniMax 发布了 M3,并将其描述为首个同时具备顶级编程能力、原生多模态和百万 token 上下文窗口的开放权重模型。MiniMax 认为,这类能力过去主要只在 Opus 4.7、GPT-5.5 和 Gemini 3.1 Pro 等闭源模型中出现。该模型目前已经可以通过 API 使用,而模型权重也计划很快公布。MiniMax 还表示,M3 的设计目标不是只处理单轮提示词,而是尽量贴近真实开发流程。为此,公司构建了一个训练模拟框架,用来模拟需求反复修改、方案讨论以及跨多个上下文持续推进任务等行为。
在内部实验中,M3 据称曾独立复现一篇关于 LLM 微调的论文,连续工作近 12 小时,生成了 18 次提交和 23 张图表,并验证了论文的核心结论。另一个测试中,M3 需要为 Nvidia Hopper GPU 优化矩阵乘法内核,据称在大约 24 小时后把硬件利用率从 7.6% 提升到 71.3%。MiniMax 表示,模型在多个平台期中持续推进,直到第 145 次尝试才找到最佳方案。第三个测试 PostTrainBench 要求 M3 独立训练四个基础模型、合成数据、评估结果并不断迭代,在该测试中它仅次于 Opus 4.7 和 GPT-5.5,但明显领先于其他被测模型。

资讯正文
MiniMax M3:具备百万级 token 上下文的开权重模型向专有模型领导者发起挑战
要点
- 中国 AI 公司 MiniMax 正在发布 M3,这是一款新的开权重模型,兼具强大的编程能力、原生多模态能力以及一百万 token 的上下文窗口。
- 新的“MiniMax Sparse Attention”架构只处理相关的数据块。这将计算量降至原来的二十分之一,并将输入处理速度提升超过 9 倍。
- 在基准测试和长时间自治测试中,M3 的表现与 Opus 4.7 和 GPT-5.5 等顶级模型相当。该模型可通过 API 使用,权重也将在不久后公开发布。
中国 AI 公司 MiniMax 已发布其新模型 M3。该公司称,这是首个将顶级编程性能、一百万 token 上下文窗口和原生多模态能力结合在一起的开权重模型。
据 MiniMax 介绍,这种组合此前是开源模型难以企及的能力,通常只属于 Opus 4.7、GPT-5.5 或 Gemini 3.1 Pro 这类专有系统。新的注意力机制通过将上下文窗口扩展到一百万 token,同时又不让计算成本失控,使这一跨越成为可能。在内部测试中,M3 还能够在数小时内独立规划、调试并自我纠错。
基准测试显示,M3 已进入专有模型阵营
为了更贴近真实开发者工作流,MiniMax 构建了一个模拟器框架,用于模拟典型的行为模式。这些模式包括细化需求、讨论解决方案思路、对中间结果作出反应,以及在多个上下文之间延续任务。这让模型在训练过程中接触到多轮协作,而不仅仅是单轮、定义清晰的提示词。
三项测试展示长时间自治能力
MiniMax 描述了三项内部实验,旨在展示这些能力如何协同发挥作用。在第一项实验中,团队让 M3 独立复现了一篇关于 LLM 微调的论文。该模型在没有人工干预的情况下连续工作了将近 12 个小时,生成了 18 次提交和 23 幅图表,并验证了论文的关键发现。
在第二项测试中,M3 被要求优化一个用于矩阵乘法的计算内核,这是 Nvidia Hopper GPU 上大型模型推理中最耗费算力的基础构件之一。MiniMax 表示,经验丰富的团队通常需要一到两周才能完成这项工作。M3 只拿到了一份任务描述、一个基准测试脚本,以及一段无法运行、且没有可供照抄参考解的代码骨架。大约 24 小时后,该模型将 Hopper 硬件利用率从 7.6% 提升到 71.3%。大多数其他受测模型在几十次尝试后就放弃了,而 M3 则跨越了多个平台期,直到第 145 次尝试才达到最佳方案。
在优化 FP8 内核时,M3 在 147 次运行后达到了 Hopper 峰值性能的 71.3%,领先于 Opus 4.7。不过,Anthropic 的模型所需运行次数要少得多。
在第三项测试 PostTrainBench 中,M3 被要求独立训练四个基础模型,进行数据合成、训练、评估并在无人输入的情况下迭代。该模型的表现仅落后于 Opus 4.7 和 GPT-5.5,但明显领先于其余受测模型。
MiniMax 表示,M3 从一开始就是在混合模态数据上训练的。所谓交错数据(interleaved data)——也就是文本和图像在同一序列中交织在一起——后来被证明比最初预期的更为重要。在重新设计数据管道之后,训练规模提升到了 100 万亿 token 量级。
一种新的注意力机制让百万 token 上下文变得可负担
其技术基础是一种名为 MiniMax Sparse Attention(MSA)的新型注意力变体。经典的全量注意力会将每个 token 与其他所有 token 进行比较,因此计算成本会随着输入长度呈二次增长。MSA 通过只对选定片段计算注意力分数,而不是对每一对 token 都计算,从而避免了这一问题。
被存储的上下文,也就是 key-value cache(KV cache),会被拆分成多个块。一个预筛选步骤会先判断哪些块与当前查询真正相关。只有这些块才会进入完整计算。
GPU 计算层面也有变化。通常情况下,模型会针对每个单独查询从内存中加载匹配的 KV 块,而且许多块会被多次取用。MSA 则反转了这一逻辑,改为按块顺序处理。对于每个块,所有需要它的查询会被集中成批处理。每个块只需从内存中读取一次,而且是连续访问模式,而不是零散跳跃。MiniMax 表示,其实现运行速度比竞争性的开源替代方案快四倍以上。
总体而言,在 100 万 token 上下文长度下,M3 每个 token 所需的算力仅为其前代的二十分之一。输入提示的处理速度提升了 9 倍以上,响应生成速度则提升了 15 倍以上。
定价与可用性
M3 可通过 MiniMax API 使用。最多 512,000 个输入 token 的请求按标准费率计费;更长的上下文成本更高。每次请求都可以开启或关闭思考模式。该 token 套餐起价为每月 20 美元,可获得约 17 亿 token,最高为 120 美元,可获得 98 亿 token。MiniMax 表示,模型权重和技术报告将在接下来的 10 天内发布到 Hugging Face 和 GitHub。
MiniMax 还更新了其内部代理应用 MiniMax Code,该应用也计划开源。
大约三个月前,MiniMax 发布了 M2.7。公司称,该模型积极参与了自身的开发,进行了 100 多轮自主优化循环,并承担了 MiniMax 内部 RL 团队 30% 到 50% 的工作流程。
来源与参考
收录于 2026-06-02