微软发布 MAI 推理与编程模型
Simon Willison··作者 Simon Willison
关键信息
MAI-Thinking-1 被描述为一个总参数量 1T、激活参数 35B 的模型,而 MAI-Code-1-Flash 则是总参数量 137B、激活参数 5B 的模型。微软还表示,这两款模型都是从头训练的,使用了干净、商业许可或“适当授权”的数据,不过关联的技术论文也提到训练数据来自网页抓取并经过了大量过滤。
资讯摘要
微软今天早上宣布了两款新的文本 LLM,作为其 MAI 系列的一部分。MAI-Thinking-1 是微软的推理模型,被描述为一个总参数量 1T、激活参数 35B 的稀疏 MoE 模型。微软表示,它目前只向部分早期合作伙伴开放。MAI-Code-1-Flash 是一款面向代码的模型,参数量为 137B,激活参数为 5B。微软称,这款模型是专门为 GitHub Copilot 和 Visual Studio Code 设计的。
该模型正在向 Visual Studio Code 中的 GitHub Copilot 个人用户逐步推出。原始文章作者表示,当时还没有机会实际试用这两款模型。微软还声称两款模型都使用了干净且有授权的数据训练,但后续更新提到技术论文显示其训练流程依赖网页抓取数据,并经过过滤、去重以及移除成人和盗版相关域名等处理。文章还更正了最初对模型规模的误读,强调不能把激活参数量误认为总参数量。
资讯正文
微软今早宣布了两款新的文本 LLM——<strong><a href="https://microsoft.ai/news/introducing-mai-thinking-1/">MAI-Thinking-1</a></strong>(推理模型,1T 参数,35B 激活参数,仅向“部分早期合作伙伴”开放)和 <strong><a href="https://microsoft.ai/news/introducingmai-code-1-flash/">MAI-Code-1-Flash</a></strong>(137B 参数,5B 激活参数,“专为 GitHub Copilot 和 VS Code 打造,旨在提供高性能和更低成本……将逐步向 Visual Studio Code 中的 GitHub Copilot 个人用户推出”)。我目前还没来得及试用它们中的任何一个。
我非常想了解更多关于这些“适当授权”的数据!它们会不会是第一批真正有用的代码专用模型,而且训练时没有使用未经授权的网页数据转储?(<strong>更新</strong>:答案是否定的,见下文说明。)
<strong>更新</strong>:我最初发布的笔记把这些模型的规模写错了。我误读了微软的公告,把 MoE 的激活参数数量理解成了总参数数量,但 <a href="https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF">MAI-Code-1-Flash 的 model card</a> 将其列为 137B、5B 激活参数,而 <a href="https://microsoft.ai/wp-content/uploads/2026/06/main_20260602_2.pdf">MAI-Thinking-1 的技术论文</a> 则显示它是一个 1T 模型,35B 激活参数。
我对这个错误深表歉意。
<strong>更新 2</strong>:那篇技术论文从第 80 页开始对训练数据作了相当详细的描述。它和其他所有主流 LLM 一样存在许可方面的问题:它是用公开网页的抓取数据训练的:
我们对 Common Crawl 也采用了相同的流水线。……在经过过滤、去重、与专有网页语料库合并,以及最后一轮基于精确 URL 和内容级模糊去重之后,Common Crawl 部分包含 242 亿个页面。
我对这件事的介绍做得并不充分,这多少有点讽刺,因为我写这篇内容时,人就在微软 Build 大会上!很抱歉在发布最初笔记前没有进一步深入挖掘。
标签:llm-release、generative-ai、ai、microsoft、llms、training-data
来源与参考
收录于 2026-06-04