Topic
#llm-inference
按主题聚合的新闻视图。
Topic Feed
主题:llm-inference
共 1 条

Google 用多 token 预测加速 Gemma 4
Google 为其开源权重的 Gemma 4 模型家族发布了多 token 预测草稿器,称其可将文本生成速度提升至多 3 倍。该技术让一个小型辅助模型并行提出多个 token,然后由主模型一次性验证。
Topic
按主题聚合的新闻视图。
Topic Feed
共 1 条

Google 为其开源权重的 Gemma 4 模型家族发布了多 token 预测草稿器,称其可将文本生成速度提升至多 3 倍。该技术让一个小型辅助模型并行提出多个 token,然后由主模型一次性验证。