Falcon OCR：一种用于开源OCR的统一早期融合Transformer模型

Hugging Face Blog·4月1日 15:13 UTC·作者 Hugging Face Blog

关键信息

该模型使用混合注意力掩码来区分图像和文本标记：图像标记双向关注以获取全局上下文，任务标记则因果关注，通过结构化的‘感知链’接口实现对坐标、尺寸和分割掩码等对象属性的密集预测。

资讯摘要

Falcon OCR是一个参数量为0.3B的开源模型，在OCR任务中表现优异，olmOCR得分为80.3，OmniDocBench得分为88.6，是目前开源模型中的最高水平。它摒弃了传统模块化流水线设计，采用单一早期融合Transformer骨干网络，从第一层开始同时处理图像块和文本标记。该模型使用混合注意力机制，将图像视为二维结构，将预测视为序列输出。

它引入了一个结构化的‘感知链’框架，每个对象按三个步骤预测：坐标→尺寸→分割掩码。这种设计减少了歧义，并通过点积解码实现高效的高分辨率分割。共享骨干网络配合轻量级头部简化了训练和扩展，相比独立的视觉与语言模块更加高效。

Falcon OCR：一种用于开源OCR的统一早期融合Transformer模型

资讯正文

本文是对我们的开发成果、设计思路以及过程中学到的经验的简要实用说明。

许多开放词汇感知系统采用模块化流水线架构：一个（通常是冻结的）视觉主干提取特征，随后由独立的融合/解码阶段将这些特征与语言信息结合，再通过额外组件处理匹配和后处理。这类设计在多种场景下表现良好，但也存在权衡：扩展性往往不干净，难以准确归因改进来自哪个模块，而且随着我们为每种故障模式添加新的修复方案，复杂度容易不断累积。

我们提出了一个更简单的问题：如果选择合适的注意力模式、输出接口和训练信号，单个早期融合 Transformer 主干是否可以同时处理感知和语言建模？

在实验中，答案基本是肯定的。接下来的内容将介绍主要的设计决策及其背后的证据。

一个单一的自回归 Transformer 处理图像块、文本和任务标记组成的统一序列。

该模型以固定顺序预测物体属性：<coord> → <size> → <seg>。

边界框坐标和尺寸通过专用头部解码，并重新注入为傅里叶特征。

高分辨率分割掩码通过 <seg> 标记与上采样图像特征之间的点积生成。

Falcon Perception 的核心是一个密集 Transformer，从第一层开始就在共享参数空间中处理图像块和文本标记。我们不再使用单独的视觉主干加后期融合解码器，而是保留单一主干，并依靠掩码和轻量级输出接口使密集预测问题变得可处理。

图像和文本具有不同的结构：像素是二维的，受益于双向上下文；而预测接口本质上是顺序的。我们通过混合注意力掩码来解决这个问题：

- 图像标记双向关注所有其他图像标记，构建全局视觉上下文（类似于视觉编码器）。

- 文本和任务标记因果地关注其之前的所有内容——完整的视觉前缀加上前面的文本。

这使得同一个主干能够在图像标记上表现出双向视觉编码器的行为，同时仍支持对任务标记进行自回归预测。

密集感知不是固定大小的预测问题：一张图像可能包含零个实例或数百个实例。自回归生成提供了一个清晰的可变长度接口，但完全自回归的密集生成（例如逐标记生成多边形或高分辨率掩码）很快会变得昂贵。

我们使用了一个小型结构化接口，称为 Chain-of-Perception，它将每个实例分解为三个步骤：<coord> → <size> → <seg>。

- 坐标标记：模型首先预测实例的中心——确定它在谈论哪个物体。

- 尺寸标记：然后预测空间范围——确定它的大小。

最终，一个单一的嵌入向量，当与上采样的图像特征进行点积运算时，可以生成全分辨率的二值掩码。

这种顺序是有意为之的。首先确定几何信息可以减少歧义（“是哪一个实例？”），使掩码预测步骤更接近于基于已解析对象的像素级细化。

骨干网络是共享的，而解码部分则使用针对输出类型定制的轻量级头部：

坐标和尺寸头部采用傅里叶特征编码：通过随机高斯投影将连续坐标映射到高维正弦空间中。这克服了神经网络的频谱偏差，相比仅使用离散分箱的方式能实现更精确的定位。解码后的坐标会重新注入序列中，作为后续标记的条件输入。

分割头部计算的是<seg>标记的隐藏状态与内容感知的上采样图像特征之间的点积。由于<seg>标记是在几何信息之后生成的，并且能够访问早期融合的视觉上下文，我们可以避免在基于解码器的实例分割训练中常见的单独掩码查询机制和匈牙利匹配。

现有的指代表达基准测试（如RefCOCO）已经趋于饱和——模型通常能达到90%以上的准确率——但它们混淆了错误的原因。模型失败是因为无法理解文本？还是无法理解空间关系？或者无法处理人群场景？

我们引入PBench，这是一个诊断性基准测试，按所需的主要能力对样本进行分类：

每个样本都聚焦于一种主要能力：OCR提示避免空间限定词，空间提示则避免图像内的文本歧义消除器。这样得到的是一种能力画像，而非单一的不透明分数，从而更容易决定下一步该投入哪里（数据、训练课程或训练后优化）。

我们不是从随机权重开始训练（根据我们的消融实验，这对分割任务来说不稳定），而是通过多教师蒸馏初始化Falcon Perception。两位强大的视觉教师提供了互补信号：

- DINOv3（ViT-H）：提供对分割至关重要的局部特征

- SigLIP2：提供语言对齐特征，用于开放词汇理解

蒸馏初始化在ImageNet-1k上实现了74.25%的零样本准确率，在Pascal VOC上的线性探测mIoU达到85.11%，为感知特定训练提供了强大的视觉基础。

我们通过一个多阶段管道构建训练集：

- 利用DINOv3嵌入对网络抓取的图像进行层次聚类，确保概念覆盖均匀。

- 基于视觉语言模型（VLM）驱动的列表生成每张图像的密集物体描述，并按PBench复杂度等级分类（60%基础，40%高级）。

- 负样本挖掘产生语义、视觉和细粒度的困难负样本，以对抗幻觉问题。

- 集成共识——SAM 3、Qwen3-VL-30B和Moondream3必须达成一致（IoU > 0.8）才能自动接受。

- 人工验证——存在分歧的样本交给标注者，恢复那些让自动化系统困惑的困难样本。

我们严格保持正样本与负样本1:1的比例，这使得存在性校准成为首要目标：模型应能可靠地判断‘不存在’，而不仅仅是在自信时绘制掩码。

第一阶段——上下文内列举（450个GT）：模型学习以自回归方式列出场景中的物品清单——预测文本表达及其位置。查询之间的完整因果注意力机制使模型能够学习物体共现关系（如‘叉子，然后刀，然后盘子’），从而构建对场景的广泛理解。

第二阶段——任务对齐（225个GT）：修改注意力掩码，使查询之间无法相互看见，模拟推理时独立查询的情况。文本标记上的损失被屏蔽，梯度信号完全集中于存在性分类和定位任务。此阶段从‘场景理解’过渡到‘回答特定问题’。

第三阶段——长上下文微调（10个GT）：一个短周期训练阶段，将每个表达的最大掩码长度提升至600，并采用极小且恒定的学习率。这使模型适应极端人群密度，同时不遗忘早期能力。

通过消融实验验证的关键设计选择包括：

- 使用Muon优化器处理专用头部（而非AdamW）——在SA-Co检测上提升+4.8分

- 实例按栅格顺序排列（而非随机或按尺寸）——相比随机排序，在SA-Co上提升+10分

- Gram特征正则化——防止从蒸馏特征中漂移，分割性能提升+1.5分

- 跨rank的全局损失归一化——纠正FSDP中因序列长度变化导致的偏差

在SA-Co开放词汇分割基准测试中，Falcon Perception（0.6B参数）达到68.0 Macro-F1，优于SAM 3的62.3，尤其在属性密集型（+8.2）、食品饮料（+12.2）和体育器材（+4.0）子集上表现显著提升。同时，Falcon Perception在存在性校准方面仍落后于SAM 3（MCC：0.64 vs 0.82），这是目前最明显的改进方向。

以下是一个示例输出——提示词‘Falcon’生成了精确的实例掩码：

Falcon Perception在指代表达任务中也表现出色，能够在视频每一帧中正确分割出带有黑色面包的汉堡：

这就是早期融合设计展现出最大差异的地方：

对于简单物体，差距不大。但随着提示变得更具组合性——需要OCR引导的歧义消除、空间约束或关系绑定——差距逐渐扩大。

在我们的PBench Dense子集上，Falcon Perception（0.6B）大幅超越通用视觉语言模型基线（例如在我们的评估设置中，72.6 vs Qwen3-VL-30B的8.9），并在空间和关系层级上匹配甚至超过8B模型。

当提示变得更复杂——需要OCR引导的歧义消除、空间约束、关系绑定或扩展到数百个实例时，早期融合的优势变得直观可见：

- OCR引导定位（第2级）：当区分信号来自物体上的文字时，Falcon Perception能准确读取文字，而SAM 3无法区分。

- 空间理解（第3级）：当提示指定空间关系时，Falcon Perception能构建连贯的二维场景地图。

关系推理（第4级）：当目标通过交互而非外观定义时，Falcon Perception能够理解场景图。

密集场景：扩展至数百实例：在场景极其拥挤的情况下，自回归接口特别有用，因为固定查询解码器可能会遇到实际限制。

第2级——OCR引导定位：Falcon Perception能读取物体上的文字以消除歧义；SAM 3则无法做到。

“168瓶酒”：Falcon Perception识别标有“168”的瓶子，而SAM 3会突出显示所有瓶子。“火奴鲁鲁方向标志”：Falcon通过阅读文字找到正确的标志。

第3级——空间理解：Falcon Perception能解决空间约束；SAM 3则会产生误报。

“左侧烤架上的下层肉串”，“底部红色汽车右侧的黑色汽车”，“左侧的比利时国旗”——Falcon Perception根据空间约束正确识别出对应实例；SAM 3对多个候选对象产生误报。

第4级——关系推理：Falcon Perception理解交互关系；SAM 3忽略关系约束。

“紧挨着棕色圆形面包的糕点”，“正在使用手机的人”，“手持头盔的人”——Falcon Perception识别出具有交互关系的实例；SAM 3仅突出显示该类别所有实例，忽略了关系约束。

密集场景：Falcon Perception可扩展至数百实例；SAM 3的解码器会因查询令牌耗尽而失效。

“大雁”，“鸽子”，“多彩罐装饮料”——Falcon Perception通过自回归方式分割数百个实例；SAM 3的固定尺寸解码器在超过约200个实例时就会耗尽查询令牌。

现代OCR已经远远超越从干净扫描中提取文本。如今的系统必须在一通处理中应对多栏布局、数学公式、表格、图表和多语言内容。大多数领先的OCR视觉语言模型（VLM）采用一种熟悉的方案：用一个视觉编码器配合独立的文字解码器，并加上特定任务的衔接模块。这些系统虽有效，但通常规模庞大（参数量达10亿至30亿以上）。

我们另辟蹊径：复用Falcon Perception中早期融合的密集Transformer架构，但从零开始训练一个参数量仅为0.3B的小型变体专门用于OCR任务。结果就是Falcon OCR——一个单一主干网络，在共享参数空间中处理图像块和文本标记，使用相同的混合注意力掩码（图像标记为双向，文本标记为因果），并通过提示切换任务，而非增加额外模块。

我们选择从零训练（未使用多教师蒸馏）是因为OCR所需的视觉特征——细粒度字形识别、笔画级区分——与分割任务中所需的目标级特征差异显著。从头开始训练使主干网络能从底层发展出专为文本优化的表示方式。

我们基于一个精心筛选的英文语料库进行训练，该语料库涵盖三项核心任务：通用文档文本解析（数字PDF、旧扫描件、打字文档）、数学与科学公式识别，以及表格结构识别。该混合数据集还包含手写体、现实场景文本，以及从渲染后的LaTeX和HTML源生成的合成样本。训练目标是纯结构化文本输出的下一个词预测。

训练分为两个阶段：第一阶段为长时间的预训练，学习率保持恒定，模型在此期间学习所有元素类型的OCR能力；第二阶段为短时余弦衰减微调，学习率逐渐降至接近零。

Falcon OCR在0.3B参数规模下，比同类0.9B参数的OCR视觉语言模型（VLM）小约三倍，这直接带来了更高的服务吞吐量。在单张A100-80GB显卡上使用vLLM高并发测试时，表现优异。

其紧凑的模型体积与vLLM集成（连续批处理、PagedAttention、优化CUDA内核）使其在需要处理数百万页文档的大规模数字化场景中具备实用性。

更广泛地说，这些结果表明，早期融合的单一堆叠Transformer架构可作为传统“视觉编码器+文本解码器”OCR方案的一种可行替代方案。它采用统一主干网络、共享参数空间、单一解码接口，并通过更好的数据和训练信号，而非日益复杂的流水线来提升性能。我们希望这一成果能激励更多研究者朝此方向探索。

Falcon OCR能够处理在各种现实条件下拍摄的图像——包括光照变化、多样的文本语义（如数学公式、结构化表格、手写笔记）以及复杂的文档布局，并输出结构化的文本内容。

点击下方每个类别以展开详情。

手写体与现实场景图像：准确转录手写文本及恶劣环境下的野外图像。

Falcon OCR可以从手写文档和现实照片中提取文字，即使光照不均、方向各异或内容复杂也能胜任。

表格提取：忠实还原各类格式表格的结构和单元格内容。

Falcon OCR能准确还原不同格式和复杂度表格中的单元格条目及其结构布局。

数学公式：准确识别符号复杂度不同的方程。

Falcon OCR可正确转录从简单等式到多行推导且嵌套运算符的各类数学表达式。

复杂文档布局：从多栏、混合内容文档中忠实提取文本。

Falcon OCR在提取多栏布局、含图表和脚注的文档文本时，能保留阅读顺序和结构完整性。

本次发布包含一个基于PyTorch FlexAttention构建的推理栈，使自定义注意力模式得以高效实现，并支持打包的变长序列快速服务。

- 基于虚拟页表的分页KV缓存（无填充导致的内存浪费）

- 连续批处理：新序列可在生成中途进入，已完成序列立即释放页面

- 解码循环的CUDA图捕获

背景分词与GPU计算重叠

HR特征缓存：使用LRU缓存和固定内存缓冲区，实现上采样图像特征的异步GPU-CPU传输——对同一张图像的后续查询可以跳过昂贵的上采样步骤。

在H100设备上的设置中，典型延迟为：预填充约100毫秒，上采样约200毫秒（若已缓存则为0毫秒），解码约50毫秒，适用于少量实例。（这些数值取决于分辨率、序列长度和预测实例的数量。）

对于Falcon-OCR模型，我们还提供了一个vLLM Docker服务器以实现快速部署，并支持MLX集成以适配Apple Silicon芯片。

详情请查看GitHub仓库。

Falcon Perception的设计刻意保持简洁：仅一个骨干网络、一类目标函数，以及仅在输出连续且密集时使用小型头部。其核心假设是，大部分性能提升应来自数据、算力和训练信号，而非不断扩展流水线加入专用模块。

该架构并未限制任何明显的扩展路径：可增加更多图像和更复杂的提示以增强定位能力，混入纯文本数据以提升语言理解，延长上下文长度以处理更密集的场景。它始终只是一个序列模型。

Falcon Perception由位于阿联酋阿布扎比的技术创新研究所（TII）的Falcon视觉团队开发。

如使用Falcon-Perception，请引用：

@article{bevli2026falcon,

title = {Falcon Perception},

author = {Bevli, Aviraj and Chaybouti, Sofian and Dahou, Yasser and Hacid, Hakim and Huynh, Ngoc Dung and Le Khac, Phuc H. and Narayan, Sanath and Para, Wamiq Reyaz and Singh, Ankit},

journal = {arXiv preprint arXiv:2603.27365},

year = {2026},

url = {https://arxiv.org/abs/2603.27365}

}

来源与参考