Kimi K2.7 Code 大幅降价

The Decoder··作者 Matthias Bastian

关键信息

K2.7 Code 采用 MoE 架构,总参数量为 1 万亿,但每个 token 仅激活 320 亿参数,支持 25.6 万 token 上下文,并具备图像和视频的多模态能力。月之暗面表示,它比 K2.6 少使用约 30% 的思考 token,还支持 preserve_thinking 模式,并可通过 Kimi API、Kimi Code CLI、vLLM、SGLang 以及原生 INT4 量化运行。

资讯摘要

月之暗面发布了 Kimi K2.7 Code,这是一款面向编程和基于智能体的编码工作流的新开源权重模型。公司表示,它的目标是在长时间运行、复杂的软件工程任务上优于 Kimi K2.6,但对于编码之外的一般任务,仍建议使用 K2.6。该模型已在 Hugging Face 上开放下载,而 Cursor 也被提到会以修改后的形式转售 Kimi。K2.7 Code 采用 MoE 架构,总参数量达到 1 万亿,但每个 token 只激活 320 亿参数;它共有 384 个专家,每个 token 会选择其中 8 个。模型支持 25.6 万 token 的上下文窗口,并通过一个名为 MoonViT 的定制视觉编码器处理文本、图像和视频,该编码器本身有 4 亿参数。

月之暗面称,新模型的推理效率更高,比 K2.6 少使用约 30% 的思考 token,这有助于减少智能体编程场景中的“过度思考”。模型还强制启用思考模式,并提供 preserve_thinking 模式,以便在多轮对话中保留推理内容。部署方面,K2.7 Code 可通过 Kimi API、Kimi Code CLI,以及 vLLM 和 SGLang 等推理框架使用,同时还提供原生 INT4 量化,便于在性能较弱或更便宜的硬件上运行。价格是这篇报道的核心:K2.7 Code 的定价为每百万输入 token 0.95 美元、每百万输出 token 4.00 美元,缓存命中后输入成本可降至每百万 token 0.19 美元。与 GPT-5.5、Claude Opus 4.8 以及 Anthropic 的 Claude Fable 5 相比,它明显便宜得多;文章还指出,Fable 5 在输出价格上贵了 12 倍以上。

Kimi K2.7 Code 大幅降价

资讯正文

开源模型 Kimi K2.7 Code 在每百万 token 的价格上比 GPT-5.5 和 Claude 低至 12 倍

要点

- Moonshot AI 发布了 Kimi K2.7 Code,这是一款专为复杂编程任务和基于智能体的工作流设计的开源模型。

- 尽管该模型在标准编码基准测试中落后于 GPT-5.5 和 Claude Opus 4.8 等西方竞争对手,但它在面向智能体的实际测试中表现出相当强的能力。

- 其定价为每百万输入 token 0.95 美元、每百万输出 token 4.00 美元,K2.7 Code 在价格上大幅低于竞争对手,是一个颇具吸引力的高性价比选择。

Moonshot AI 发布了 Kimi K2.7 Code,这是一款专门面向编程任务和基于智能体的编码工作流打造的新 AI 模型。该模型基于其前代产品 Kimi K2.6 构建,并以开源权重版本的形式在 Hugging Face 上提供。

据 Moonshot AI 介绍,K2.7 Code 旨在在长时间运行、复杂的软件工程任务上超越前代产品。对于编程之外的一般任务,公司仍然推荐使用 K2.6。Kimi 也是编码工具提供商 Cursor 以修改形式转售的那款模型。

相比 K2.6 有所提升,但仍落后于领先者

拥有万亿参数,但每次仅激活 320 亿个

根据模型卡,K2.7 Code 采用 Mixture-of-Experts(MoE,混合专家)架构,总参数量为 1 万亿。其中每个 token 只有 320 亿参数处于激活状态。该模型共有 384 个专家,每个 token 选择其中 8 个。上下文长度为 256,000 个 token。

该模型支持多模态,除了文本外还可以处理图像和视频。它使用名为 MoonViT 的定制视觉编码器,参数量为 4 亿。其架构与 K2.5 和 K2.6 完全相同,因此现有部署配置可以直接复用。

Moonshot AI 表示,一项关键改进是推理效率更高。与 K2.6 相比,K2.7 Code 使用的思考 token 大约减少了 30%,这意味着“过度思考”更少。该模型强制启用思考模式,并提供“preserve_thinking”模式,可在多轮对话中保留完整推理内容,以提升基于智能体的编码场景表现。

Moonshot AI 还宣布即将推出“6x High-Speed Mode”。用户可以通过 Kimi API、Kimi Code CLI,以及 vLLM 和 SGLang 等推理引擎访问该模型。同时也提供原生 INT4 量化版本。模型权重可在 Hugging Face 上下载。原生 INT4 量化同样可用,这使得该模型能够在性能较弱或更便宜的硬件上运行。

成本仅为西方竞争对手的一小部分

即使 K2.7 Code 在一些基准测试上落后于西方顶级模型,同样的预算也能让你以高得多的频率运行它,因此核心问题不再是它是否是整体最好的模型,而是它对当前任务来说是否足够好。

这个问题只能结合你自己的、面向具体任务的基准测试逐一回答。考虑到价格差距,在高强度使用的情况下,这些评估很快就能收回成本。每个 token 的成本正变得和原始模型质量一样重要,另一种迹象表明,token 经济正在兴起。

带有大客户条款的修改版 MIT 许可证

该模型采用修改版 MIT 许可证发布,允许免费使用、修改和再分发。任何将 K2.7 Code 或其衍生版本用于商业产品、且产品月活跃用户超过 1 亿或月收入超过 2000 万美元的人,都必须在 UI 中醒目显示“Kimi K2.7 Code”。

来源与参考

  1. 原始链接
  2. Open model Kimi K2.7 Code undercuts GPT-5.5 and Claude by up to 12x on price per token

收录于 2026-06-14