专用小模型可击败前沿 API

Hugging Face Blog·5月22日 23:25 UTC·作者 Hugging Face Blog

关键信息

这项对比发生在一个特定领域的结构化 OCR 基准上，文中称这款专用 30 亿参数模型在所测试的所有商业前沿 API 中表现最好，而且评估同时考虑了质量和运行成本。文章强调，该模型是通过微调把训练历史尽量靠近部署任务，因此作者认为参数规模不再是决定性变量。

资讯摘要

Dharma AI 的这篇文章主张，在企业 AI 采购中，专门化往往比规模更重要。文章以 DharmaOCR 为基础，这是该团队在 4 月发布的一对用于结构化 OCR 的专用小语言模型，并且同时发布了基准和论文，相关内容也都在 Hugging Face 上公开。作者表示，在他们的基准测试中，一个经过微调流程优化的 30 亿参数模型，击败了他们测试的所有商业前沿 API。作者还称，这个表现最好的模型同时也是运行成本最低的，成本优势大到足以在有实际规模的采购中改变决策计算。

文章据此认为，企业过去默认选择最大的前沿模型，这一做法现在并不总是合理。作者解释说，过去这种默认是有道理的，因为 GPT-4、Claude 3、Gemini 1.5 等模型通常在相关基准上领先，而且早期的 scaling laws 也表明，能力会随着参数量和训练算力上升。文章进一步指出，变化的关键在于，如今比较对象里加入了专用模型，这些模型的训练历史被刻意拉近到具体生产任务。作者把这次 OCR 结果视为目前最严格测量到的一个例子，说明专门化模型研究中可能正在出现更广泛的规律。

资讯正文

当一个模型的训练历史与其部署任务足够接近时，参数规模就不再是决定性变量。一个 30 亿参数的专用模型，在一个测量充分的企业领域中，性能超过了测试过的每一个商业前沿 API —— 而且成本大约只有后者的五十分之一。

今年 4 月，我们发布了 DharmaOCR——一对用于结构化 OCR 的专用小型语言模型，同时还发布了一个基准测试及配套论文。相关模型和基准测试都可以在 Hugging Face 上获取。它们共同构成了 Dharma 更广泛研究工作的一部分：探讨在生产级 AI 系统中，专门化、对齐和推理经济性如何相互作用。

这篇文章从这些发现中提炼出一个战略层面的含义：专门化、分布对齐与参数规模之间的关系。下面的讨论将在论文所支持的范围内展开。

在过去三年里，企业 AI 战略在很大程度上都基于一个稳定的假设：最稳妥的选择通常是可获得的最大前沿模型。小模型主要被视为在任务能够容忍一定质量下降、以换取更低成本的场景下才可考虑。支撑这一假设的逻辑很直接。能力似乎随着参数规模而扩展，前沿模型提供商在主要基准上始终处于领先地位，而选错模型的代价，往往被认为高于为领先模型付费的代价。

这种推理是有道理的。但现在，实证记录中已经出现了一个结果，而其背后的对照集并不能轻易解释这一结果。

今年早些时候，Dharma 发布了一项基准测试：一个 30 亿参数的模型——通过任何资源充足的企业都可以复现的微调流程实现专门化——在测试中的表现超过了所有商业前沿 API。差距不只是很小，也不是买家会轻易忽视的某个指标上的优势。成本差距与质量差距的方向正好相反：得分最高的模型同时也是运行成本最低的模型，而且优势大到足以在任何有意义的使用规模下改变采购算式。

这一结果并非孤例。到目前为止，它是 Dharma 在其他领域观察到的一种模式中测量最严谨的实例，而越来越多关于专门化的研究也开始记录这种现象（Subramanian et al., 2025；Pecher et al., 2026）。但它确实提出了一个值得明确追问的问题：当最大的模型并不是表现最好的模型时，究竟是什么变量在起作用？

采购默认选择并不是偶然形成的。它之所以形成，是因为在过去三年中的大部分时间里，它确实是正确的。

当 GPT-4 发布时，它在所有重要的基准测试上都优于每一个更小的模型。随后，这一模式在 Claude 3、Gemini 1.5，以及 2025 年每一代前沿模型发布中，以不断改进的形式重复出现。能力随着参数量和训练算力的增加而提升（Kaplan 等，2020）——这正是 OpenAI 多年前就已形式化的扩展定律所揭示的实证关系。由此得出的结论是：在可选范围内挑选最大模型的买家，平均而言，买到的是表现最好的工具。在缺乏更具区分力信号的情况下，默认选择更大规模是理性的做法。

这种假设之所以站得住脚，是因为在多数促成这一结论的比较中，它确实是正确的。变化的并不是这个假设一直以来都是错的。变化的是，支撑这一假设的比较集合，或许并不完整。

缺失的是另一类模型。不是更小的前沿模型，而是一个专用模型——它的训练历程被有意地拉近到它将要执行的任务，通过一系列微调步骤，将一个较小的基础模型适配到其最终部署的领域。开篇所述论文是最早将成本、质量和生产稳定性并列测量并进行比较的研究之一。

该论文使用的基准测试是一个领域特定评估：针对巴西葡萄牙语 OCR，涵盖印刷文档、手写文本以及法律和行政记录。这个基准本身并不是本文的重点。真正重要的是它测量了什么，以及它运行了哪些比较。

DharmaOCR-Benchmark 上各模型的评估结果。第一列括号中的内容表示所使用的专门化技术。若某个模型未标注为 LoRA，则意味着已进行了全量微调。标注为“Quant”的条目表示 AWQ 量化版本中的最佳性能配置。

在成本方面，差距要大得多。这个专用的 3B 模型的每百万页运行成本大约比 Claude Opus 4.6 低 52 倍——这一差距是根据推理基础设施成本与公开 API 定价计算得出的。将质量与成本绘制为帕累托前沿后可以看到，这个专用模型位于图表的左上角，而商业 API 位于其下方和右侧。（关于财务建模的更深入分析，可见《文本退化的真实经济学》。）

在生产稳定性方面，同一个模型产生了评估中最低的文本退化率——这一指标衡量的是生成过程有多经常陷入自我强化循环并无法产出可用结果。（关于生产稳定性的案例，可见该集群中的《文本退化》一文。）这款 3B 模型在该基准上记录为 0.20%；次之的专用模型为 0.40%；更大的通用开源基线更高；商业 API 则没有直接针对这一指标进行基准测试。

不同对齐阶段的文本退化率（%）。在大多数情况下，SFT 会相较于原始模型降低退化率，而 DPO 还能进一步降低，即使与经过 SFT 调优的模型相比也是如此。

这三个发现——质量、成本和稳定性，而且都是由同一个 3B 专用模型带来的——构成了这篇文章的实证支点。合在一起，它们让实证论据比任何单一发现都更有说服力。论文并没有声称，本文也没有声称，这一结果可以推广到所有企业 AI 工作负载。它所主张的是：在这个基准测试中，实验里最小的专用模型在所有重要维度上都排第一。

这就让那个显而易见的问题成为正确的问题。在这组比较中，最小的模型在质量、成本和稳定性上都赢了。仅凭参数量本身，并不能解释这一结果。接下来的自然追问——找出真正起作用的变量——正是讨论继续推进的地方。

其中一部分很直观。一个专注于部署任务的 30 亿参数模型，往往会优于一个大得多、但其参数被分散在任务永远不会触及的材料上的模型——其他语言、其他语料、其他领域。论文进一步指出：一个重要变量不仅在于参数如何分配，还在于模型的训练历史如何被推向该任务。在所报告的实验中，这个变量比其他任何经过测试的变量都更可靠地预测了相对性能——包括参数量在内。

论文对此有直接表述。在讨论部分，作者将这一结果描述为支持这样一个观点：“情境化专门化可能比单纯的模型参数数量更具决定性。”决定模型是否表现最佳的，不是参数量，而是它的训练轨迹被推向部署任务的程度。一个在更宽分布上训练的大模型，最终落后于一个在更窄分布上训练的小模型。更窄的训练就是带来胜出的变量。

从这一点看，模型性能的理解方式与采购默认思路截然不同。在默认思路下，参数量是主导变量，而训练历史只是次要修饰因素。在论文提出的框架下，优先级则反了过来。与任务的分布对齐成为主导变量。参数量则变成诸多因素之一，它们共同决定某一步对齐能带来多少收益。

专门化并不是用来弥补规模不足的。它是一种实现对齐的方式。

按照论文提出的框架，分布对齐并不专属于 OCR。它是模型与其所要执行任务之间关系的一种属性。在这一框架下，判断哪一个模型最适合某项企业工作负载，主要是在问它的训练历史与任务对齐得如何——而不是模型有多大。

如果分布对齐是最重要的变量之一，那么下一个问题就是它如何积累。论文的证据表明，这并不是一步到位的。上面的结果其实是更广泛模式中的一个实例：在论文的数据里，专门化的表现更像一个层级，模型可以沿着这个层级一步一步被推进，而不是像二元状态那样非此即彼。

对齐并不是模型要么拥有、要么缺失的单一属性。它是一个层级位置，而且可以一次向上移动一级。通用模型位于最底层；通用领域专家模型（为更广泛类别的任务训练）位于其上；面向具体领域的专家模型（针对其将被部署的具体工作进行训练）则更高一层。相同的下游训练，会因为模型起始所在的层级不同而产生不同结果。

论文为此提供的证据是结构性的。两组比较直接说明了这一点。

两组对比、两种参数规模、两项一致结果。专门化会逐步累积。一个模型如果已经更接近其最终任务所属的更广泛类别，那么在接受同样的领域特定训练时，获得的收益会比从更宽泛分布开始的模型更大。这个流程并不是凭空生成对齐，而是在已有对齐的基础上继续构建。

专门化存在层级，每一层都建立在前一层所编码的分布之上。多阶段训练可以逐步把模型推向目标任务分布，即使在相似的架构和计算约束下，也会产生实质不同的下游结果。

这种模式——把对齐视为一种会不断累积的量——是文章基于论文证据得出的最强论断。它的边界也应当明确标出。该层级结构只在一个领域、一个基准、两组模型对比中得到验证。没有任何领域特定的理由表明这一机制只能局限于OCR——但相关证据尚未在其他领域收集，因此，若要尊重其边界，就应当清楚地区分这一点。把这种实证研究扩展到更多企业领域，是这项工作开启的更广泛研究方向的一部分，而 Dharma 也打算在更多企业领域进一步调查这一问题。

在明确这一边界之后，战略层面的讨论就可以继续推进。一个在某个测量得很充分的企业领域里被证明比参数数量更重要的变量，现在成为团队值得权衡的一种策略——不是在所有场景中，而是在任何可以执行对齐测试的场景中。

理解这篇论文的一个有用方式，不是把它当作企业下一步应该怎么做的指令，而是把它看作一个提示，提醒企业应该问什么。三个问题会变得更清晰。

第一个问题是：分布对齐是否应该与参数数量一起，被提升为严肃AI评估中的一项一等变量。论文证据并没有主张把它置于参数数量之上。它更温和地表明，对齐作为一个变量足够重要，值得被明确测试，而不是被默认认为影响很小。

第二个问题随之而来：仅凭基准测试领先，是否足以作为企业采购决策的证据？在一个测量充分的领域里，引领公开基准的模型并不是交付最佳结果的模型。如果这种分歧出现在其他领域——而论文并未证明确实如此，只是说明它有可能出现——那么企业评估可能需要额外一层证据，即在代表实际部署工作负载的任务上进行测试。

第三点关乎架构，而非方法。如果对齐是在一个会不断复利的层级体系中的位置，那么起始模型的选择——而不仅仅是微调流程——就会成为一项本身具有战略意义的决策。一个在部署任务上已经更为接近的起始模型，可能会在相同训练预算下产生实质上更好的结果。但更深层的含义或许不是程序性的，而是组织性的。如果专业化会不断复利，那么企业最终受益的，可能不是去寻找一个单一、通用、无所不能的模型，而是构建一个由多个模型组成的生态系统，使这些模型在各自的领域、工作流程和运营约束下逐步对齐。这样的架构在实践中是否真的更有优势，是每个组织都必须在自身环境中评估的问题。

本文的贡献刻意保持在一个较窄的范围内。它并没有主张前沿模型更差、可被弃用，或者采购默认选项应该被反转。它基于一篇论文的证据提出的是：对于每一种企业 AI 工作负载而言，前沿模型并不一定是表现最好的选择。论文所报告的实验表明，与部署任务更为一致、训练历程更为贴近的小型专用模型，在质量、成本和生产稳定性方面都优于所评估的更大型商业 API。其含义并不是前沿模型较弱，而是：对于企业 AI 系统而言，专业化历程可能比许多评估框架目前所假定的更具战略重要性。

我们撰写这篇文章，并不是为了论证规模不再重要，而是为了剥离当前企业 AI 讨论中可能仍被低估的一个变量。训练历程可以被观察、被评估，并通过连续的专业化阶段进一步贴近部署任务。在论文所报告的比较中，这种关系实质性地改变了所评估的每一个模型的排名。它是否也会在其他情境中改变排名，则是下一组实验需要回答的问题。

Cardoso, Gabriel Pimenta de Freitas, 等. “DharmaOCR: Specialized Small Language Models for Structured OCR that outperform Open-Source and Commercial Baselines.” arXiv preprint arXiv:2604.14314 (2026)。

Subramanian, Karthik, 等. “Small Language Models for Domain-Specific Enterprise AI Workloads.” arXiv preprint arXiv:2503.11872 (2025)。

Pecher, Branislav, 等. “Comparing specialised small and general large language models on text classification: 100 labelled samples to achieve break-even performance”, (2026)。

Kaplan, Jared, 等. “Scaling Laws for Neural Language Models.” arXiv preprint arXiv:2001.08361 (2020)。

来源与参考

收录于 2026-05-23