字节研究发现问答优于转录训练长文档

The Decoder··作者 Jonathan Kemper

关键信息

研究发现,纯 OCR 式文本识别作为训练任务反而会损害性能,而针对文档特定部分生成的问答对能够提升效果。最佳结果来自偏向抽取任务并混入少量计算任务的训练组合;尽管只在 128,000 token 上训练,模型在 256,000 甚至 512,000 token 输入下仍保持稳定。

资讯摘要

字节跳动 Seed 和香港科技大学研究了如何更有效地训练多模态模型来理解长文档。研究的核心发现是:让模型围绕文档回答问题,比让它把文档中的所有文字都转录出来更有效。研究人员在对比实验中发现,纯文本识别不仅没有帮助,反而会让性能低于模型的初始水平。相比之下,问答监督带来了明显提升,因为这种方式会迫使模型在长上下文中定位相关信息,再抽取答案。为了构造这种训练信号,研究人员使用字节跳动的 Seed 2.0 为文档的各个部分生成问答对。

随后,他们基于阿里巴巴开源的 Qwen2.5-VL 训练出一个名为 MMProLong 的模型。研究称,MMProLong 在 InternVL3-38B 和 Gemma3-27B 等更大的开源模型面前表现更好,并且在 256,000 甚至 512,000 token 的超长输入下仍能保持稳定。研究还发现,使用长短样本的广泛混合,比主要集中在最长文档上更可靠,而且真正的瓶颈是信息检索,而不是对检索到内容进行推理。最后,研究人员表示,这套方法也能迁移到长视频理解等任务,并且即使在已经面向长上下文的 Qwen3-VL-8B 上也能继续带来提升。

字节研究发现问答优于转录训练长文档

资讯正文

字节跳动研究发现:在长文档训练中,让 LMM 提问题比让它誊写文本更有效

多模态 AI 模型本应能够处理越来越长的文档,但它们通常如何被训练来做到这一点,却仍然是商业机密。一项新研究显示,把字符识别作为训练任务实际上会损害性能,而问答对的效果则要好得多。

来自字节跳动 Seed 和香港科技大学(HKUST)的研究人员研究了图像语言模型如何在长文档上高效训练。结果是一种名为 MMProLong 的模型,它建立在阿里巴巴开源的 Qwen2.5-VL 之上,表现优于体量大得多的竞争对手。

现代多模态 AI 模型需要处理越来越长的输入:整套由渲染页面组成的 PDF 集合、数小时的视频,或者能够在多步任务中持续记住目标的智能体。OpenAI、Google 和阿里巴巴等 AI 实验室都在宣称其上下文窗口可达 100 万个 token,不仅能容纳文本,还能容纳数千张页面图像或视频帧。但据作者称,技术报告几乎没有揭示模型应该看到哪些数据,以及以何种比例混合这些数据。

提问比誊写文本更能促进学习

乍看之下,这项研究的核心发现似乎显而易见。对于多模态模型来说,要学会在一份 100 页的文档中找到正确位置,让它誊写每一页的文本几乎帮不上忙。更有效的做法,是提出一些问题,而这些问题的答案隐藏在这些页面中的某个地方。

研究人员将这两种方法进行了直接对比。在一种设置中,模型必须在整份文档的所有页面上,或者在少数选定页面上执行文本识别,而其余页面则作为干扰项留在上下文中。

在另一种设置中,研究人员使用了另一个独立模型(字节跳动的 Seed 2.0)为文档的各个部分生成问答对。随后,这个问题会与整份文档一起进入训练过程,迫使模型在长上下文中定位相关段落。

单纯把文本识别作为训练任务,实际上会让性能比起点还差。另一方面,问答式训练则带来了明显提升。只有当模型必须带着明确目标去筛选和归类信息时,它才会学会在长文本中穿行。

多样性胜过专精

实验还发现了另外三个结论。仅仅把模型主要喂给上下文窗口上限附近的超长文档,并不值得。更广泛地混合短样本和长样本,效果更稳定。长上下文能力并不是绑定在某个特定长度上的技能,而是需要在不同距离之间灵活搜索的能力。

真正的瓶颈其实也是找到相关段落,而不是对其进行推理。以抽取任务为主、少量计算任务为辅的混合方案,取得了最佳结果。

第三个发现令人惊讶,因为它与仅文本语言模型的常见做法相矛盾。加入简短的训练示例似乎并非绝对必要。即便只用长篇问答数据进行训练,模型在很大程度上仍保留了处理短任务的能力。数据本身的格式很可能起到了帮助作用:即使上下文非常长,任务仍以熟悉的指令跟随格式被表述为一次问答交互。

在最多 512,000 个 token 下依然小巧但稳定

借助这套方法和相当有限的训练预算,MMProLong 的表现超过了几个规模更大的开源模型,例如 InternVL3-38B 和 Gemma3-27B。该模型只用 128,000 个 token 进行训练,但在 256,000 甚至 512,000 个 token 的输入长度下仍保持稳定,而原始模型在这些范围内则会明显崩溃。

这种能力还能迁移到模型从未专门训练过的任务上,比如理解长视频。在一项额外的迁移实验中,这套方法在更强的 Qwen3-VL-8B 上也被证明有效,尽管该模型本身已经为长上下文而构建。

这项研究还很有意思,因为它来自与 Deepseek 就同一问题展开的广为讨论的工作完全不同的阵营。Deepseek 试图通过把文本作为图像处理并进行大幅压缩,来扩展 AI 模型的长记忆能力,最近一次做法则是采用一种编码器,按内容重新排序视觉信息。ByteDance Seed 则采取了相反的思路:优化训练数据,而不是架构。

来源与参考

  1. 原始链接
  2. ByteDance study finds that asking LMMs questions beats making it transcribe text for long document training

收录于 2026-05-25