深度求索发布低成本高性能开源模型

The Decoder·4月24日 16:35 UTC·作者 Maximilian Schreiner

关键信息

这些模型采用一种新型混合注意力架构，将长上下文计算需求降低多达90%，并基于32至33万亿token训练，通过内部专用模型蒸馏优化。

资讯摘要

中国AI实验室深度求索发布了两款强大的开源权重模型——V4-Pro（总参数1.6万亿）和V4-Flash（总参数2840亿），支持长达一百万token的上下文窗口。这两款模型在GDPval-AA等基准测试中表现优于大多数开源替代品，同时价格远低于GPT-5.4或Gemini 3.1 Pro。其关键技术是一种新的混合注意力机制，相比前代版本大幅减少了FLOPs和KV缓存使用量。

它们基于32至33万亿token的数据集训练，并通过从多个内部专家模型蒸馏优化而成，而非传统强化学习。这种效率、规模与成本的结合使其非常适合代理型AI应用场景。

资讯正文

随着代理型AI推动竞争对手提高价格并限制使用，DeepSeek推出了几乎无需成本的优质模型。

关键要点

- 中国AI实验室DeepSeek发布了V4-Pro和V4-Flash两款开源权重模型，参数规模高达1.6万亿，上下文窗口达一百万token。

- 新架构大幅降低长上下文所需的计算资源，使DeepSeek能够以远低于OpenAI、谷歌和Anthropic等竞争对手的价格提供这两款模型。

- 模型训练数据量最高达33万亿token，并通过内部专业模型蒸馏优化而成。它们专为代理任务设计，可在Nvidia GPU和华为Ascend芯片上运行。

中国AI实验室DeepSeek发布了V4-Pro和V4-Flash两款新模型，参数规模最高达1.6万亿，上下文窗口为一百万token。定价远低于OpenAI、谷歌和Anthropic。随附的技术论文还披露了训练数据、蒸馏方法及硬件支持细节。

DeepSeek已将V4-Pro和V4-Flash的预览版本以开源权重形式发布，采用MIT许可证。V4-Pro总参数量为1.6万亿，活跃参数约490亿；V4-Flash总参数量为2840亿，活跃参数约130亿。两者均为专家混合模型（Mixture-of-Experts），上下文窗口均为一百万token，均可在Hugging Face获取。

V4-Pro现为目前最大的开源权重模型，远超Kimi K2.6（1.1万亿）和GLM-5.1（7540亿）。这也是DeepSeek自V3以来首次推出全新架构，此前发布的V3.1、V3.2、R1以及R1 0528均基于原始V3设计，参数量为6850亿。

长上下文现在需要更少计算资源

关键技术突破在于一种新的混合注意力架构，结合了token压缩与DeepSeek的稀疏注意力机制。根据技术报告，处理一百万token上下文时，V4-Pro所需浮点运算量（FLOPs）仅为V3.2的27%，KV缓存占用仅为10%。而V4-Flash进一步优化，FLOPs降至10%，KV缓存降至7%。

在Artificial Analysis的GDPval-AA基准测试中，V4-Pro以1554 Elo分领先所有开源模型，优于GLM-5.1（1535分）和Kimi K2.6（1484分），相比V3.2提升了约355 Elo分。不过DeepSeek也在论文中承认，V4-Pro“略逊于GPT-5.4和Gemini-3.1-Pro”，落后于前沿模型约三至六个月。Artificial Analysis的完整测试仍在进行中，但部分DeepSeek自身的基准测试已显示出差距。OpenAI和Anthropic随后分别发布了GPT-5.5和Opus 4.7新模型。

这些效率提升解释了其激进的定价策略。据DeepSeek官网显示，V4-Flash每百万输入token仅需0.14美元，每百万输出token为0.28美元，价格低于OpenAI的GPT-5.4 Nano。V4-Pro定价为1.74美元和3.48美元，显著低于Gemini 3.1 Pro、GPT-5.5和Claude Sonnet 4.6。

训练依赖海量数据与内部蒸馏技术

随着代理型AI推动竞争对手提高价格并限制使用，DeepSeek却推出了一款几乎无需成本的性能足够好的模型。

该团队对预训练语料库的描述相对模糊：V4-Flash处理了32万亿个标记，V4-Pro则处理了33万亿个。重点在于增加了更多多语言数据、精心筛选的科学论文和技术报告，以及中期训练期间的代理型数据。网络数据则被过滤掉了“批量自动生成和模板化内容”。

这篇论文并未列出具体的数据库或许可证来源。人们常怀疑DeepSeek直接从GPT或Claude蒸馏模型，但报告中并未证实这一点，这并不令人意外。

不过，蒸馏在后训练阶段确实起到了核心作用。DeepSeek已完全用在线策略蒸馏取代了此前的混合强化学习阶段。根据论文，实验室首先通过监督微调和GRPO方法训练了超过十种专用内部模型，分别针对数学、代码、代理任务和指令遵循能力。随后，一个单一的学生模型从所有这些内部教师模型中学习。

专为代理任务优化的模型已在华为硬件上完成验证。

DeepSeek专门构建了V4以适配代理工作流。公司表示，这些模型已集成工具如Claude Code、OpenClaw和OpenCode，并已在内部用于代理编程。API支持OpenAI和Anthropic兼容接口。

论文在硬件方面更为具体：专家并行方案已在“Nvidia GPU和华为昇腾NPUs”上得到验证。开源的超大规模内核MegaMoE基于CUDA，DeepSeek还用其自研的DeepGEMM替换了Nvidia的cuBLAS库。

此外，华为宣布其基于昇腾950 AI芯片构建的昇腾超节点已全面支持V4模型。

来源与参考

收录于 2026-04-25