为什么AI专门化不可避免
Hugging Face Blog··作者 Hugging Face Blog
关键信息
文章引用了 Wolpert 和 Macready 在 1997 年的结果,说明不存在一种在所有问题上都最优的通用优化算法。文章还强调,算力、数据和开发时间都是有限的,覆盖越广,每个任务可分配的资源就越少,因此专门化往往更容易在真实场景中取得更强表现。
资讯摘要
Dharma AI 认为,专门化是高效 AI 系统的核心原则之一,会影响成本、性能、可靠性和主权等多个方面。文章被定位为对 2026 年论文《AI Must Embrace Specialization via Superhuman Adaptable Intelligence》的解读,该论文作者为 Goldfeder、Wyder、LeCun 和 Shwartz-Ziv。文章首先指出,人们通常会直觉地认为,AI 越强大就应该越通用,但实际观察到的模式却相反。跨领域来看,最重要的突破往往来自为单一任务打造的系统,而不是广泛通用的系统。文中以蛋白质结构预测为例,说明一个高度针对性的系统可以取得重大成功。
随后文章转向优化理论,引用 Wolpert 和 Macready 在 1997 年的定理,指出不存在一种在所有可能问题上都优于其他算法的通用优化算法。基于这个定理,文章得出的现实结论是:算法的胜利来自对目标问题的高度匹配,尤其是在算力、数据和开发时间都有限的情况下。文章认为,“普适通用性”也许可以作为抽象概念存在,但在实践中是一个神话,因为资源如果分散到无限多的任务上,每个任务得到的资源会趋近于零。文章最后提到,生物学和其他领域也独立指向同样的结论,但所给摘录在展开这些论证前就结束了。

资讯正文
优化理论、进化生物学、竞争性市场和机器学习都预示着同一件事——而且答案也是相同的
关注 Dharma AI 的读者已经知道,我们将专业化视为有效 AI 系统的定义性原则之一,它会塑造从成本和性能到可靠性与主权的一切。很少有论文像 Goldfeder、Wyder、LeCun 和 Shwartz-Ziv 2026 年的工作那样,对这一观点作出如此严谨的阐述。
在本文中,我们探讨并解读《AI Must Embrace Specialization via Superhuman Adaptable Intelligence》(Goldfeder, Wyder, LeCun, & Shwartz-Ziv, 2026)中的观点。该论文的收敛性论证——横跨优化理论、生物学、组织经济学和机器学习——为后文讨论提供了证据结构和思想基础。这里呈现的框架、组织方式和编辑综合,均为 Dharma 所作。
传统预期是合理的:随着 AI 系统能力增强,它们也应当变得更通用。更强的能力和更广的适用性似乎天然相伴——更多资源、更好的方法以及更大规模的训练,应当会造就能以越来越高的自信应对更多任务的系统。
但真正出现的模式并非如此。那些在某个特定领域取得最重大成果的系统,往往是对该领域最狭窄聚焦的系统。蛋白质结构预测的突破来自一个专为单一科学任务而设计的系统。回顾 AI 的历史里程碑,也会发现,它们反映的与其说是不断扩展的通用性,不如说是对特定领域的强烈定向。
这种模式反复出现。它跨越不同领域,跨越数十年,也跨越几乎毫无共同之处的架构选择。如此一致的模式表明,存在一个共同原因——而这个原因并不源自 AI 研究内部。
1997 年,Wolpert 和 Macready 证明了一件在 AI 架构讨论中很少被提及的事:没有任何一种单一的通用优化算法,能够在所有可能问题上都优于其他所有算法(Wolpert & Macready, 1997)。这一证明是数学上的,而不是哲学上的。对学习者可能面对的所有可设想问题取平均后,每一种算法表现都同样好——也同样差。一种算法在某类问题分布上获得优势,就必然在其他分布上作出让步。性能只是被重新分配,而不是被放大。
其实际含义非常直接:“算法通过很好地契合目标问题而获胜”(Goldfeder et al., 2026)。这一定理并不是说通用性不可能存在——它说的是,通用性并不是性能优势。持续获得更优表现的结构性路径是聚焦:用广度换取匹配度。
当有限资源进入视野时,这一点会变得更加清晰。任何真实系统都在约束下运行——算力有限、数据有限、开发时间有限。在能量有限的前提下,将可用资源集中用于学习一组有限任务的方法,会胜过把同样的资源分散到一个无限广阔范围的方法。算术关系是无情的:随着任务集合无界扩张,每个任务可获得的资源会趋近于零。在有限资源条件下,全面覆盖与有意义的性能之间存在直接张力。
该定理所指向的结论并不是通用性不好。它比这更窄,也更具操作性:正如论文所写,“通用的普适性是一个理论概念,但在实践中它是一个神话”(Goldfeder et al., 2026)。在现实约束面前真正站得住脚的,不是试图什么都做的系统,而是能够契合其目标的系统。
数学在这里给出的是一种预测,而不是一种偏好。至于这种预测是否会在优化理论之外的世界里成立,则是另一个问题。
在优化理论给出这个名称之前,另外两个领域已经得出了同样的预测。
正如论文对生物学情形所描述的:在某一生态位上的每一次性能提升,都会在别处付出代价。通才携带着适用于多种环境的特征,但没有一种是最优的——其能力被过度分散,无法在任何特定条件下占据优势。没有不伴随权衡的性能提升;投入某一能力的资源,就不再可用于另一能力。选择会偏向那些与局部条件相匹配的设计,而不是那些为了在所有可能环境中实现均匀覆盖而优化的设计。能够存活并繁衍的生物,不是最通用的,而是最具体匹配的。经过进化时间尺度的累积,结果并不是通才占据主导,而是专才填满各个生态位。正如论文所说:“专门化不是生物学中的偶然现象;它是有限资源、相互竞争的目标,以及奖励在少数进化上相关挑战上表现的环境共同作用下的可预测结果”(Goldfeder et al., 2026)。
竞争性市场则通过不同的方式遵循同样的动态。那些未能达到性能门槛的组织和策略会被淘汰——不是通过灭绝,而是通过退出、失去资金支持,以及被更匹配的替代方案取代。竞争发挥着选择机制的作用:它放大有效策略,消除无效策略。这个机制与生物选择并无共同之处——没有遗传,没有突变,也没有进化时间尺度。被选择的单位不是有机体,而是组织、产品、策略。然而,结构性压力是相同的:有限资源、性能要求,以及系统性地移除那些过于分散、因而无法在关键之处出类拔萃的实体。当性能标准清晰且稳定时,集中的能力会胜过分散的能力。
进化和市场通过完全不同的机制运作——不同的时间尺度、不同的选择单位、不同的遗传机制。然而,两者在资源压力下都产生同样的结果:以适配性胜过广度。这个定理预言了这一点。生物学和市场独立地得出了同样的结论。当第三个领域通过完全不同的方式也得出同样的发现时,这种模式就不再像一个定理,而开始更像某种关于受约束系统如何运作的更普遍规律。
同样的模式也出现在机器学习内部——这并非从优化理论推导出来,而是通过构建系统并观察什么会改进它们的积累经验得出的。
最清晰的形式是否定迁移:当一个在多个任务上训练的系统因为这些任务彼此竞争而非协作时,会出现一种可测量的性能下降(Ruder,2017)。当任务共享结构时,联合训练会带来帮助。但当任务争夺表征容量,或在训练过程中施加相互冲突的梯度时,单个任务上的表现就会低于专门系统本可达到的水平。广度带来的收益,变成了深度的成本。这是把有限容量分配给彼此拉扯的任务所带来的、已经被记录在案的后果。专门化系统不面临这种竞争,因此不会付出这笔代价。
前沿模型的架构提供了另一种证据。混合专家系统并不是通过所有参数上的统一通用性来获得广度,而是将每个输入路由到网络中一部分专门化子集——针对不同任务激活不同的专家。论文作者将此解读为一种结构上的让步:一个旨在通用的系统,却通过在内部恢复专门化来实现其结果。这是一种有论证的解释,而非被证明的定理——这些架构最初是为了计算效率而设计的,而它们对通用性边界的含义,更合理地说是一种推断,而不是明确的设计意图。但这一点仍然值得注意:最有能力的通用系统,正是通过在内部做专门系统按设计所做的事情,才达到了它们的性能。
最清晰的历史例子遵循同样的逻辑。AlphaFold 通过针对蛋白质结构预测这一特定任务,并采用任务特定的架构和训练选择,实现了性能的跃迁(Jumper 等,2021)。它的提升来自更狭窄的聚焦,而不是更广泛的覆盖。论文将 AlphaFold 作为一个原型案例——不是作为所有专门化系统都能获得同等收益的证据,而是作为这一机制的一个异常清晰的说明。这样的机制一再出现:论文指出,AI 里程碑的历史往往反映的是强烈的领域定向,而不是广泛的能力,即便其结果看起来像是在展示通用智能。
三个不同的地方。三种不同的机制。同一个结论。
如果不提及人工智能研究中被引用最多的观察之一,这幅图景就不完整。Sutton 的“苦涩教训”认为,依赖领域知识的方法,持续会被依靠扩大计算规模的方法所超越(Sutton,2019)。表面上看,这似乎让“专业化”的论证变得更复杂:如果规模和通用性最终胜出,也许专业化只是资源受限条件下的一种有用启发式,而随着算力变得更便宜,这种限制会逐渐缓解。
这一反对意见建立在对两个不同概念的混淆之上。领域知识指的是手工编码的特征、工程化先验,以及旨在让系统对某个特定领域获得洞察的规则。“苦涩教训”针对的正是这一点——而且它这样做是正确的。随着规模扩大,编码了显式领域知识的系统一直在持续被超越。
领域专业化则不同:它指的是将系统的资源、架构和训练导向一组有限的任务,而不是把这些资源广泛分散出去。这并不是对某个领域知识的编码,而是对作用范围的选择。
论文对这种区别表述得非常准确:
“领域知识的边际效用递减,与领域专业化的效用并不相同。随着规模化推进,我们需要知道的蛋白质知识会更少,才能构建出一个进行蛋白质折叠的系统;然而,这样的系统仍然会因为专注于蛋白质本身而受益。”(Goldfeder 等,2026)
规模化改变的是系统能从数据中学到什么。它并不会改变这样一个事实:把资源集中在有限的任务集合上,是否优于把资源分散到无限广泛的范围内。“苦涩教训”和专业化论点作用于不同维度——前者描述知识应当如何获取,后者描述系统应当指向什么。二者可以同时为真。规模化改变了系统学习的机制;但它并没有消解那条使“契合”比“广度”更有价值的约束。
在四种分析传统中,同样的模式通过不同路径浮现出来。这不是一个需要解释的巧合,而是证据本身。
当有限资源遇上选择压力——无论是在优化问题、生态系统、市场还是一次训练过程中——契合度始终胜过广度。具体机制各不相同,时间尺度各不相同,选择单位也各不相同。但结构性的动态是相同的,因此会产生相同的结果。
这个定理并不是生物学中的这种模式的原因。生物学也不是市场中这种模式的原因。二者都不是机器学习中的原因。它们面对的是同一条底层约束:在稀缺条件下取得性能,需要集中资源。定理在数学上所建立的,进化史在经验上所验证的,竞争性市场在制度上所展示的,机器学习又在架构上重新发现的,都是这一点。
专业化不是一种偏好,而是在有限资源遇上履行任务的要求时自然涌现出来的结果。
如果您正在评估领域聚焦如何影响贵组织中的 AI 性能——或者正在内部为专门化战略建立论据——我们很希望了解您的具体背景。欢迎联系 Dharma AI。
Goldfeder, S., Wyder, M., LeCun, Y., & Shwartz-Ziv, R.(2026)。AI must embrace specialization via superhuman adaptable intelligence。arXiv:2602.23643。
Wolpert, D.H. & Macready, W.G.(1997)。No free lunch theorems for optimization。IEEE Transactions on Evolutionary Computation, 1(1), 67–82。
Forister, M.L., Novotny, V., Panorska, A.K., Baje, L., Basset, Y., Butterill, P.T., & Dyer, L.A.(2012)。Global distribution of diet breadth in insect herbivores。Proceedings of the National Academy of Sciences, 109(2), 418–423。
Futuyma, D.J. & Moreno, G.(1988)。The evolution of ecological specialization。Annual Review of Ecology and Systematics, 19, 207–233。
Hannan, M.T. & Freeman, J.(1977)。The population ecology of organizations。American Journal of Sociology, 82(5), 929–964。
Loasby, B.J.(1983)。Knowledge, learning and the firm。引自 Goldfeder et al.(2026)。
Ruder, S.(2017)。An overview of multi-task learning in deep neural networks。arXiv:1706.05098。
Fedus, W., Zoph, B., & Shazeer, N.(2022)。Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity。Journal of Machine Learning Research, 23(120), 1–39。
Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., & Hassabis, D.(2021)。Highly accurate protein structure prediction with AlphaFold。Nature, 596, 583–589。
Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., & Hassabis, D.(2018)。A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play。Science, 362(6419), 1140–1144。
Sutton, R.S.(2019)。The bitter lesson。取自 http://www.incompleteideas.net/IncIdeas/BitterLesson.html
Specialization Beats Scale:大多数 AI 采购决策都会忽略的一个战略变量——本文的实证和战略补充篇。若说 No Free Lunch 定理阐明了为何专门化在结构上是可预测的,那么这篇文章则考察了其在实践中为何更胜一筹的证据——以及为什么在大多数 AI 采购决策中,这一点仍然被低估。
Text Degeneration:大多数基准测试都没有追踪的一种生产故障模式——当语言模型在其有效领域边界之外运行时,这种故障模式就会出现。
Direct Preference Optimization Beyond Chatbots——偏好优化技术如何扩展到对话式 AI 之外的专门化领域——这是本文所主张的、在结构上可预测的领域聚焦战略的一个具体体现。
欢迎在 Hugging Face 上探索 Dharma AI,试用我们的交互式演示,下载我们的开源模型,并了解专门化 AI 系统如何在真实企业应用中优于通用模型。
来源与参考
收录于 2026-07-01