Deepseek 的 DSpark 提升 AI 推理速度

The Decoder·6月30日 16:28 UTC·作者 Matthias Bastian

关键信息

Deepseek 表示，DSpark 不再逐个 token 生成，而是生成较小的词组，并根据算力负载动态调整验证深度。公司还称已在 Google DeepMind 的 Gemma 和阿里巴巴的 Qwen 上测试过该方法，并表示该框架以及 Deepseek-V4-Pro 模型已在 Hugging Face 和 GitHub 上以 MIT 许可证开源。

资讯摘要

Deepseek 发布了 DSpark，这是一种新的推理框架，公司称它可以将 AI 模型的响应速度提升 60% 到 85%。Deepseek 认为，传统 LLM 逐词生成文本的方式效率不高，容易造成 GPU 利用率偏低，并让较长回答的等待时间变长。DSpark 通过推测解码来解决这一问题：先由一个更小的模型提出候选输出，再由更大的模型分批验证。它还不是按单个 token 生成，而是生成较小的词组，Deepseek 认为这能提升整体吞吐效率。

除此之外，DSpark 还引入了基于置信度的机制，会根据当前算力负载动态调整验证深度，从而减少对被拒绝提案的无效计算。Deepseek 表示，它已经在 Google DeepMind 的 Gemma 和阿里巴巴的 Qwen 等开源模型上测试了这一方法，说明该技术可能不仅适用于自家模型。该框架以及与北京大学联合开发的 Deepseek-V4-Pro 模型已在 Hugging Face 和 GitHub 上以 MIT 许可证公开，相关技术细节则写在论文中。文章认为，这一发布在战略上很重要，因为在美国出口管制不断收紧的背景下，更高效的推理可以降低芯片压力和基础设施成本。

资讯正文

Deepseek 的 DSpark 将 AI 速度最高提升 85%，在美国出口管制收紧之际取得战略性胜利

据该公司称，Deepseek 已发布 DSpark，这是一种新方法，可将其 AI 模型的单用户响应速度提升 60% 至 85%。

Deepseek 表示，大多数 LLM 都是一次生成一个词，这会导致 GPU 利用率偏低，且在生成长回复时等待时间很长。它的新框架 DSpark 采用了推测解码（speculative decoding）：一个更小、更轻量的模型先提出答案候选，然后由更大的模型分批进行校验。它还会生成小词组而不是单个 token，从而提升整体效率。一个基于置信度的系统会根据计算负载动态调整验证深度，减少对被拒绝的 token 提案所浪费的处理量。

Deepseek 还用来自 Google DeepMind（Gemma）和阿里巴巴（Qwen）的开源模型测试了 DSpark，表明这种方法具有广泛适用性。该框架以及与北京大学共同开发的 Deepseek-V4-Pro 模型，已在 Hugging Face 和 GitHub 上以 MIT 许可证发布。技术细节见论文。

减少芯片压力，或实现更快扩展

这一发布对中国具有战略意义。更快的推理可降低芯片需求并削减基础设施成本。这对中国以及潜在的欧盟都是好消息，因为两者在数据中心建设和高性能芯片方面都落后于美国。

不过，杰文斯悖论可能会出现。更高效的推理确实会降低每次查询所需的芯片需求。但释放出来的算力很可能会立即被更多 AI 请求、更长上下文或新应用所吸收。芯片总需求可能保持不变，甚至继续增长。Deepseek 自己表示，DSpark“实现了此前无法达到的性能层级，推动了我们服务系统的帕累托前沿”。

尽管如此，从短期看，这些效率提升对中国和欧盟都有帮助。它们可以用更少的高端芯片榨出更多 AI 性能。鉴于芯片供应紧张以及美国出口限制，这是一项战略优势，也削弱了美国将芯片作为地缘政治杠杆的能力。

AI 新闻，无需炒作——由人工策划

订阅 THE DECODER，即可无广告阅读、每周 AI 新闻简报、每年六次发布的独家《AI Radar》前沿报告、完整档案访问权限，以及评论区访问权限。

来源与参考