Deepseek 的 DSpark 提升 AI 推理速度

The Decoder··作者 Matthias Bastian

关键信息

Deepseek 表示,DSpark 不再逐个 token 生成,而是生成较小的词组,并根据算力负载动态调整验证深度。公司还称已在 Google DeepMind 的 Gemma 和阿里巴巴的 Qwen 上测试过该方法,并表示该框架以及 Deepseek-V4-Pro 模型已在 Hugging Face 和 GitHub 上以 MIT 许可证开源。

资讯摘要

Deepseek 发布了 DSpark,这是一种新的推理框架,公司称它可以将 AI 模型的响应速度提升 60% 到 85%。Deepseek 认为,传统 LLM 逐词生成文本的方式效率不高,容易造成 GPU 利用率偏低,并让较长回答的等待时间变长。DSpark 通过推测解码来解决这一问题:先由一个更小的模型提出候选输出,再由更大的模型分批验证。它还不是按单个 token 生成,而是生成较小的词组,Deepseek 认为这能提升整体吞吐效率。

除此之外,DSpark 还引入了基于置信度的机制,会根据当前算力负载动态调整验证深度,从而减少对被拒绝提案的无效计算。Deepseek 表示,它已经在 Google DeepMind 的 Gemma 和阿里巴巴的 Qwen 等开源模型上测试了这一方法,说明该技术可能不仅适用于自家模型。该框架以及与北京大学联合开发的 Deepseek-V4-Pro 模型已在 Hugging Face 和 GitHub 上以 MIT 许可证公开,相关技术细节则写在论文中。文章认为,这一发布在战略上很重要,因为在美国出口管制不断收紧的背景下,更高效的推理可以降低芯片压力和基础设施成本。

Deepseek 的 DSpark 提升 AI 推理速度

资讯正文

Deepseek 的 DSpark 将 AI 速度最高提升 85%,在美国出口管制收紧之际取得战略性胜利

据该公司称,Deepseek 已发布 DSpark,这是一种新方法,可将其 AI 模型的单用户响应速度提升 60% 至 85%。

Deepseek 表示,大多数 LLM 都是一次生成一个词,这会导致 GPU 利用率偏低,且在生成长回复时等待时间很长。它的新框架 DSpark 采用了推测解码(speculative decoding):一个更小、更轻量的模型先提出答案候选,然后由更大的模型分批进行校验。它还会生成小词组而不是单个 token,从而提升整体效率。一个基于置信度的系统会根据计算负载动态调整验证深度,减少对被拒绝的 token 提案所浪费的处理量。

Deepseek 还用来自 Google DeepMind(Gemma)和阿里巴巴(Qwen)的开源模型测试了 DSpark,表明这种方法具有广泛适用性。该框架以及与北京大学共同开发的 Deepseek-V4-Pro 模型,已在 Hugging Face 和 GitHub 上以 MIT 许可证发布。技术细节见论文。

减少芯片压力,或实现更快扩展

这一发布对中国具有战略意义。更快的推理可降低芯片需求并削减基础设施成本。这对中国以及潜在的欧盟都是好消息,因为两者在数据中心建设和高性能芯片方面都落后于美国。

不过,杰文斯悖论可能会出现。更高效的推理确实会降低每次查询所需的芯片需求。但释放出来的算力很可能会立即被更多 AI 请求、更长上下文或新应用所吸收。芯片总需求可能保持不变,甚至继续增长。Deepseek 自己表示,DSpark“实现了此前无法达到的性能层级,推动了我们服务系统的帕累托前沿”。

尽管如此,从短期看,这些效率提升对中国和欧盟都有帮助。它们可以用更少的高端芯片榨出更多 AI 性能。鉴于芯片供应紧张以及美国出口限制,这是一项战略优势,也削弱了美国将芯片作为地缘政治杠杆的能力。

AI 新闻,无需炒作——由人工策划

订阅 THE DECODER,即可无广告阅读、每周 AI 新闻简报、每年六次发布的独家《AI Radar》前沿报告、完整档案访问权限,以及评论区访问权限。

来源与参考

  1. 原始链接
  2. Deepseek's DSpark boosts AI speed by up to 85 percent, a strategic win under tightening US export controls