深度求索发布低成本高性能开源模型
The Decoder··作者 Maximilian Schreiner
关键信息
这些模型采用一种新型混合注意力架构,将长上下文计算需求降低多达90%,并基于32至33万亿token训练,通过内部专用模型蒸馏优化。
资讯摘要
中国AI实验室深度求索发布了两款强大的开源权重模型——V4-Pro(总参数1.6万亿)和V4-Flash(总参数2840亿),支持长达一百万token的上下文窗口。这两款模型在GDPval-AA等基准测试中表现优于大多数开源替代品,同时价格远低于GPT-5.4或Gemini 3.1 Pro。其关键技术是一种新的混合注意力机制,相比前代版本大幅减少了FLOPs和KV缓存使用量。
它们基于32至33万亿token的数据集训练,并通过从多个内部专家模型蒸馏优化而成,而非传统强化学习。这种效率、规模与成本的结合使其非常适合代理型AI应用场景。

资讯正文
随着代理型AI推动竞争对手提高价格并限制使用,DeepSeek推出了几乎无需成本的优质模型。
关键要点
- 中国AI实验室DeepSeek发布了V4-Pro和V4-Flash两款开源权重模型,参数规模高达1.6万亿,上下文窗口达一百万token。
- 新架构大幅降低长上下文所需的计算资源,使DeepSeek能够以远低于OpenAI、谷歌和Anthropic等竞争对手的价格提供这两款模型。
- 模型训练数据量最高达33万亿token,并通过内部专业模型蒸馏优化而成。它们专为代理任务设计,可在Nvidia GPU和华为Ascend芯片上运行。
中国AI实验室DeepSeek发布了V4-Pro和V4-Flash两款新模型,参数规模最高达1.6万亿,上下文窗口为一百万token。定价远低于OpenAI、谷歌和Anthropic。随附的技术论文还披露了训练数据、蒸馏方法及硬件支持细节。
DeepSeek已将V4-Pro和V4-Flash的预览版本以开源权重形式发布,采用MIT许可证。V4-Pro总参数量为1.6万亿,活跃参数约490亿;V4-Flash总参数量为2840亿,活跃参数约130亿。两者均为专家混合模型(Mixture-of-Experts),上下文窗口均为一百万token,均可在Hugging Face获取。
V4-Pro现为目前最大的开源权重模型,远超Kimi K2.6(1.1万亿)和GLM-5.1(7540亿)。这也是DeepSeek自V3以来首次推出全新架构,此前发布的V3.1、V3.2、R1以及R1 0528均基于原始V3设计,参数量为6850亿。
长上下文现在需要更少计算资源
关键技术突破在于一种新的混合注意力架构,结合了token压缩与DeepSeek的稀疏注意力机制。根据技术报告,处理一百万token上下文时,V4-Pro所需浮点运算量(FLOPs)仅为V3.2的27%,KV缓存占用仅为10%。而V4-Flash进一步优化,FLOPs降至10%,KV缓存降至7%。
在Artificial Analysis的GDPval-AA基准测试中,V4-Pro以1554 Elo分领先所有开源模型,优于GLM-5.1(1535分)和Kimi K2.6(1484分),相比V3.2提升了约355 Elo分。不过DeepSeek也在论文中承认,V4-Pro“略逊于GPT-5.4和Gemini-3.1-Pro”,落后于前沿模型约三至六个月。Artificial Analysis的完整测试仍在进行中,但部分DeepSeek自身的基准测试已显示出差距。OpenAI和Anthropic随后分别发布了GPT-5.5和Opus 4.7新模型。
这些效率提升解释了其激进的定价策略。据DeepSeek官网显示,V4-Flash每百万输入token仅需0.14美元,每百万输出token为0.28美元,价格低于OpenAI的GPT-5.4 Nano。V4-Pro定价为1.74美元和3.48美元,显著低于Gemini 3.1 Pro、GPT-5.5和Claude Sonnet 4.6。
训练依赖海量数据与内部蒸馏技术
随着代理型AI推动竞争对手提高价格并限制使用,DeepSeek却推出了一款几乎无需成本的性能足够好的模型。
该团队对预训练语料库的描述相对模糊:V4-Flash处理了32万亿个标记,V4-Pro则处理了33万亿个。重点在于增加了更多多语言数据、精心筛选的科学论文和技术报告,以及中期训练期间的代理型数据。网络数据则被过滤掉了“批量自动生成和模板化内容”。
这篇论文并未列出具体的数据库或许可证来源。人们常怀疑DeepSeek直接从GPT或Claude蒸馏模型,但报告中并未证实这一点,这并不令人意外。
不过,蒸馏在后训练阶段确实起到了核心作用。DeepSeek已完全用在线策略蒸馏取代了此前的混合强化学习阶段。根据论文,实验室首先通过监督微调和GRPO方法训练了超过十种专用内部模型,分别针对数学、代码、代理任务和指令遵循能力。随后,一个单一的学生模型从所有这些内部教师模型中学习。
专为代理任务优化的模型已在华为硬件上完成验证。
DeepSeek专门构建了V4以适配代理工作流。公司表示,这些模型已集成工具如Claude Code、OpenClaw和OpenCode,并已在内部用于代理编程。API支持OpenAI和Anthropic兼容接口。
论文在硬件方面更为具体:专家并行方案已在“Nvidia GPU和华为昇腾NPUs”上得到验证。开源的超大规模内核MegaMoE基于CUDA,DeepSeek还用其自研的DeepGEMM替换了Nvidia的cuBLAS库。
此外,华为宣布其基于昇腾950 AI芯片构建的昇腾超节点已全面支持V4模型。
来源与参考
收录于 2026-04-25