Topic

#llm-inference

按主题聚合的新闻视图。

主题:llm-inference

共 1 条

  1. Google 用多 token 预测加速 Gemma 4

    The Decoder·

    Google 用多 token 预测加速 Gemma 4

    Google 为其开源权重的 Gemma 4 模型家族发布了多 token 预测草稿器,称其可将文本生成速度提升至多 3 倍。该技术让一个小型辅助模型并行提出多个 token,然后由主模型一次性验证。