MiniMax M3：百万级上下文开源权重模型

The Decoder·6月1日 21:38 UTC·作者 Jonathan Kemper

关键信息

MiniMax 表示，该模型采用 MiniMax Sparse Attention，只处理选中的相关块，而不是所有 token 两两计算，从而将计算量降至二十分之一，并把输入处理速度提升了九倍以上。公司还报告了内部自治测试，M3 能连续工作数小时，生成代码和图表，并接近或达到 Opus 4.7、GPT-5.5 等模型的表现。

资讯摘要

中国 AI 公司 MiniMax 发布了 M3，并将其描述为首个同时具备顶级编程能力、原生多模态和百万 token 上下文窗口的开放权重模型。MiniMax 认为，这类能力过去主要只在 Opus 4.7、GPT-5.5 和 Gemini 3.1 Pro 等闭源模型中出现。该模型目前已经可以通过 API 使用，而模型权重也计划很快公布。MiniMax 还表示，M3 的设计目标不是只处理单轮提示词，而是尽量贴近真实开发流程。为此，公司构建了一个训练模拟框架，用来模拟需求反复修改、方案讨论以及跨多个上下文持续推进任务等行为。

在内部实验中，M3 据称曾独立复现一篇关于 LLM 微调的论文，连续工作近 12 小时，生成了 18 次提交和 23 张图表，并验证了论文的核心结论。另一个测试中，M3 需要为 Nvidia Hopper GPU 优化矩阵乘法内核，据称在大约 24 小时后把硬件利用率从 7.6% 提升到 71.3%。MiniMax 表示，模型在多个平台期中持续推进，直到第 145 次尝试才找到最佳方案。第三个测试 PostTrainBench 要求 M3 独立训练四个基础模型、合成数据、评估结果并不断迭代，在该测试中它仅次于 Opus 4.7 和 GPT-5.5，但明显领先于其他被测模型。

资讯正文

MiniMax M3：具备百万级 token 上下文的开权重模型向专有模型领导者发起挑战

要点

- 中国 AI 公司 MiniMax 正在发布 M3，这是一款新的开权重模型，兼具强大的编程能力、原生多模态能力以及一百万 token 的上下文窗口。

- 新的“MiniMax Sparse Attention”架构只处理相关的数据块。这将计算量降至原来的二十分之一，并将输入处理速度提升超过 9 倍。

- 在基准测试和长时间自治测试中，M3 的表现与 Opus 4.7 和 GPT-5.5 等顶级模型相当。该模型可通过 API 使用，权重也将在不久后公开发布。

中国 AI 公司 MiniMax 已发布其新模型 M3。该公司称，这是首个将顶级编程性能、一百万 token 上下文窗口和原生多模态能力结合在一起的开权重模型。

据 MiniMax 介绍，这种组合此前是开源模型难以企及的能力，通常只属于 Opus 4.7、GPT-5.5 或 Gemini 3.1 Pro 这类专有系统。新的注意力机制通过将上下文窗口扩展到一百万 token，同时又不让计算成本失控，使这一跨越成为可能。在内部测试中，M3 还能够在数小时内独立规划、调试并自我纠错。

基准测试显示，M3 已进入专有模型阵营

为了更贴近真实开发者工作流，MiniMax 构建了一个模拟器框架，用于模拟典型的行为模式。这些模式包括细化需求、讨论解决方案思路、对中间结果作出反应，以及在多个上下文之间延续任务。这让模型在训练过程中接触到多轮协作，而不仅仅是单轮、定义清晰的提示词。

三项测试展示长时间自治能力

MiniMax 描述了三项内部实验，旨在展示这些能力如何协同发挥作用。在第一项实验中，团队让 M3 独立复现了一篇关于 LLM 微调的论文。该模型在没有人工干预的情况下连续工作了将近 12 个小时，生成了 18 次提交和 23 幅图表，并验证了论文的关键发现。

在第二项测试中，M3 被要求优化一个用于矩阵乘法的计算内核，这是 Nvidia Hopper GPU 上大型模型推理中最耗费算力的基础构件之一。MiniMax 表示，经验丰富的团队通常需要一到两周才能完成这项工作。M3 只拿到了一份任务描述、一个基准测试脚本，以及一段无法运行、且没有可供照抄参考解的代码骨架。大约 24 小时后，该模型将 Hopper 硬件利用率从 7.6% 提升到 71.3%。大多数其他受测模型在几十次尝试后就放弃了，而 M3 则跨越了多个平台期，直到第 145 次尝试才达到最佳方案。

在优化 FP8 内核时，M3 在 147 次运行后达到了 Hopper 峰值性能的 71.3%，领先于 Opus 4.7。不过，Anthropic 的模型所需运行次数要少得多。

在第三项测试 PostTrainBench 中，M3 被要求独立训练四个基础模型，进行数据合成、训练、评估并在无人输入的情况下迭代。该模型的表现仅落后于 Opus 4.7 和 GPT-5.5，但明显领先于其余受测模型。

MiniMax 表示，M3 从一开始就是在混合模态数据上训练的。所谓交错数据（interleaved data）——也就是文本和图像在同一序列中交织在一起——后来被证明比最初预期的更为重要。在重新设计数据管道之后，训练规模提升到了 100 万亿 token 量级。

一种新的注意力机制让百万 token 上下文变得可负担

其技术基础是一种名为 MiniMax Sparse Attention（MSA）的新型注意力变体。经典的全量注意力会将每个 token 与其他所有 token 进行比较，因此计算成本会随着输入长度呈二次增长。MSA 通过只对选定片段计算注意力分数，而不是对每一对 token 都计算，从而避免了这一问题。

被存储的上下文，也就是 key-value cache（KV cache），会被拆分成多个块。一个预筛选步骤会先判断哪些块与当前查询真正相关。只有这些块才会进入完整计算。

GPU 计算层面也有变化。通常情况下，模型会针对每个单独查询从内存中加载匹配的 KV 块，而且许多块会被多次取用。MSA 则反转了这一逻辑，改为按块顺序处理。对于每个块，所有需要它的查询会被集中成批处理。每个块只需从内存中读取一次，而且是连续访问模式，而不是零散跳跃。MiniMax 表示，其实现运行速度比竞争性的开源替代方案快四倍以上。

总体而言，在 100 万 token 上下文长度下，M3 每个 token 所需的算力仅为其前代的二十分之一。输入提示的处理速度提升了 9 倍以上，响应生成速度则提升了 15 倍以上。

定价与可用性

M3 可通过 MiniMax API 使用。最多 512,000 个输入 token 的请求按标准费率计费；更长的上下文成本更高。每次请求都可以开启或关闭思考模式。该 token 套餐起价为每月 20 美元，可获得约 17 亿 token，最高为 120 美元，可获得 98 亿 token。MiniMax 表示，模型权重和技术报告将在接下来的 10 天内发布到 Hugging Face 和 GitHub。

MiniMax 还更新了其内部代理应用 MiniMax Code，该应用也计划开源。

大约三个月前，MiniMax 发布了 M2.7。公司称，该模型积极参与了自身的开发，进行了 100 多轮自主优化循环，并承担了 MiniMax 内部 RL 团队 30% 到 50% 的工作流程。

来源与参考

收录于 2026-06-02