字节研究发现问答优于转录训练长文档

The Decoder·5月24日 21:28 UTC·作者 Jonathan Kemper

关键信息

研究发现，纯 OCR 式文本识别作为训练任务反而会损害性能，而针对文档特定部分生成的问答对能够提升效果。最佳结果来自偏向抽取任务并混入少量计算任务的训练组合；尽管只在 128,000 token 上训练，模型在 256,000 甚至 512,000 token 输入下仍保持稳定。

资讯摘要

字节跳动 Seed 和香港科技大学研究了如何更有效地训练多模态模型来理解长文档。研究的核心发现是：让模型围绕文档回答问题，比让它把文档中的所有文字都转录出来更有效。研究人员在对比实验中发现，纯文本识别不仅没有帮助，反而会让性能低于模型的初始水平。相比之下，问答监督带来了明显提升，因为这种方式会迫使模型在长上下文中定位相关信息，再抽取答案。为了构造这种训练信号，研究人员使用字节跳动的 Seed 2.0 为文档的各个部分生成问答对。

随后，他们基于阿里巴巴开源的 Qwen2.5-VL 训练出一个名为 MMProLong 的模型。研究称，MMProLong 在 InternVL3-38B 和 Gemma3-27B 等更大的开源模型面前表现更好，并且在 256,000 甚至 512,000 token 的超长输入下仍能保持稳定。研究还发现，使用长短样本的广泛混合，比主要集中在最长文档上更可靠，而且真正的瓶颈是信息检索，而不是对检索到内容进行推理。最后，研究人员表示，这套方法也能迁移到长视频理解等任务，并且即使在已经面向长上下文的 Qwen3-VL-8B 上也能继续带来提升。

资讯正文

字节跳动研究发现：在长文档训练中，让 LMM 提问题比让它誊写文本更有效

多模态 AI 模型本应能够处理越来越长的文档，但它们通常如何被训练来做到这一点，却仍然是商业机密。一项新研究显示，把字符识别作为训练任务实际上会损害性能，而问答对的效果则要好得多。

来自字节跳动 Seed 和香港科技大学（HKUST）的研究人员研究了图像语言模型如何在长文档上高效训练。结果是一种名为 MMProLong 的模型，它建立在阿里巴巴开源的 Qwen2.5-VL 之上，表现优于体量大得多的竞争对手。

现代多模态 AI 模型需要处理越来越长的输入：整套由渲染页面组成的 PDF 集合、数小时的视频，或者能够在多步任务中持续记住目标的智能体。OpenAI、Google 和阿里巴巴等 AI 实验室都在宣称其上下文窗口可达 100 万个 token，不仅能容纳文本，还能容纳数千张页面图像或视频帧。但据作者称，技术报告几乎没有揭示模型应该看到哪些数据，以及以何种比例混合这些数据。

提问比誊写文本更能促进学习

乍看之下，这项研究的核心发现似乎显而易见。对于多模态模型来说，要学会在一份 100 页的文档中找到正确位置，让它誊写每一页的文本几乎帮不上忙。更有效的做法，是提出一些问题，而这些问题的答案隐藏在这些页面中的某个地方。

研究人员将这两种方法进行了直接对比。在一种设置中，模型必须在整份文档的所有页面上，或者在少数选定页面上执行文本识别，而其余页面则作为干扰项留在上下文中。

在另一种设置中，研究人员使用了另一个独立模型（字节跳动的 Seed 2.0）为文档的各个部分生成问答对。随后，这个问题会与整份文档一起进入训练过程，迫使模型在长上下文中定位相关段落。

单纯把文本识别作为训练任务，实际上会让性能比起点还差。另一方面，问答式训练则带来了明显提升。只有当模型必须带着明确目标去筛选和归类信息时，它才会学会在长文本中穿行。

多样性胜过专精

实验还发现了另外三个结论。仅仅把模型主要喂给上下文窗口上限附近的超长文档，并不值得。更广泛地混合短样本和长样本，效果更稳定。长上下文能力并不是绑定在某个特定长度上的技能，而是需要在不同距离之间灵活搜索的能力。

真正的瓶颈其实也是找到相关段落，而不是对其进行推理。以抽取任务为主、少量计算任务为辅的混合方案，取得了最佳结果。

第三个发现令人惊讶，因为它与仅文本语言模型的常见做法相矛盾。加入简短的训练示例似乎并非绝对必要。即便只用长篇问答数据进行训练，模型在很大程度上仍保留了处理短任务的能力。数据本身的格式很可能起到了帮助作用：即使上下文非常长，任务仍以熟悉的指令跟随格式被表述为一次问答交互。

在最多 512,000 个 token 下依然小巧但稳定

借助这套方法和相当有限的训练预算，MMProLong 的表现超过了几个规模更大的开源模型，例如 InternVL3-38B 和 Gemma3-27B。该模型只用 128,000 个 token 进行训练，但在 256,000 甚至 512,000 个 token 的输入长度下仍保持稳定，而原始模型在这些范围内则会明显崩溃。

这种能力还能迁移到模型从未专门训练过的任务上，比如理解长视频。在一项额外的迁移实验中，这套方法在更强的 Qwen3-VL-8B 上也被证明有效，尽管该模型本身已经为长上下文而构建。

这项研究还很有意思，因为它来自与 Deepseek 就同一问题展开的广为讨论的工作完全不同的阵营。Deepseek 试图通过把文本作为图像处理并进行大幅压缩，来扩展 AI 模型的长记忆能力，最近一次做法则是采用一种编码器，按内容重新排序视觉信息。ByteDance Seed 则采取了相反的思路：优化训练数据，而不是架构。

来源与参考

收录于 2026-05-25