AI代理扩展软件工程,远超代码范畴

The Decoder··作者 Matthias Bastian

关键信息

半可执行栈包括从传统代码(第1层)到欧盟人工智能法案等社会因素(第6层)的六个层级,其中第2至第5层代表新兴工程领域,如编排、控制系统和组织逻辑。论文指出,这些外层的方法论仍远未成熟于传统软件工程实践。

资讯摘要

一项新研究表明,AI代理并未消除软件工程岗位,而是通过扩展“工程构件”的定义来重塑该领域。现代软件工程不再只关注可执行代码,还需设计和维护提示、决策流程和操作工作流等半可执行元素。研究人员提出一个六层框架——半可执行栈——帮助团队理解自身工作在这一演变中的位置。

第1至第3层涵盖代码、自然语言规范和代理编排等技术组件;第4至第6层涉及控制机制、组织逻辑和社会适应性。作者强调,虽然自动化可以处理常规任务,人类角色则转向战略决策,比如决定构建什么、如何验证以及如何长期治理系统。

AI代理扩展软件工程,远超代码范畴

资讯正文

研究人员认为,AI代理并未取代软件工程,而是将其扩展到了代码之外的更广阔领域。

关键观点

- 研究人员指出,AI代理不会让开发者变得过时。相反,它们通过所谓的“半可执行产物”扩展了软件工程,这些产物包括提示词、工作流程和决策规程等。

- 为厘清这一概念,他们提出一个由六个层级组成的“半可执行栈”,从中心的传统代码开始,向外延伸至边缘的社会因素,如欧盟人工智能法案。

- 该研究认为,开发者的职责正在从单纯编写代码转向决定构建什么、如何验证以及如何维持系统运行。

流行的说法是,AI代理正在吞噬越来越多的编程工作,而开发者将走向过时。来自查尔姆斯理工大学和沃尔沃集团的研究人员在一篇新论文中反驳了这种观点,认为这种看法忽略了重点。

研究人员提出了另一种视角:基于代理的人工智能系统通过他们称为“半可执行产物”的内容扩展了软件工程。这些产物包括提示词、工作流程、政策、升级规则和决策规程。它们对系统行为的影响与代码一样直接,但需要人类或概率性的解释才能真正运行。

六个层级,而非仅限于代码

论文的核心是一个名为“半可执行栈”的诊断模型,由六个层级组成。最内层是经典代码(第1层),其次是提示词和自然语言规范(第2层),再往外是编排好的代理工作流程(第3层)。第4层涵盖控制系统,如护栏和监控机制;第5层代表运营组织逻辑,例如决策规程;第6层则捕捉社会和制度适应性,包括欧盟人工智能法案等框架。

作者指出,软件工程历史上一直聚焦于第1层和第2层。如今,第2到第5层正成为高优先级的工程对象,而第6层越来越决定什么在实践中真正可行。

研究人员表示,最大的空白存在于第5层和第6层。针对代码的工程方法已存在数十年,但针对决策规程、治理和制度适配的对应方法仍处于缺失状态。大多数研究仍集中于第1到第3层的代码生成、错误修复、测试和基准评估。

研究人员用三个观察结果支持他们的论点:第一,AI不需要达到顶尖工程师的水平就能改变团队的工作方式,只要足够好即可;第二,规模比峰值性能更重要,许多日常的小型AI部署给组织带来的价值远超偶尔获得顶级专家的机会;第三,随着更多领域专家使用自然语言自行构建系统,对清晰工程实践的需求反而增加而非减少。

常见的反对意见变成了工程问题

研究人员指出,AI代理并未取代软件工程,而是将其扩展到了远超代码的领域。

研究人员并没有忽视通常对可靠性、混乱代码等问题的批评,而是将这些问题重新定义为工程任务。当AI代理产生幻觉时,测试和监控的重要性反而更加凸显,而非降低。当AI更快地生成代码时,维护成本也随之上升。例如“提示漂移”现象:有人调整了提示词,系统行为发生变化,但后来却没人能弄清楚原因。

当组织在这一转变中遇到困难时,过渡过程本身就会变成一个工程挑战。研究人员写道,正是由于细微判断难以自动化,这种能力的价值反而随着低级任务变得更便宜且更自动化而提升。

对从业者而言,这篇论文明确传达了一件事:“稀缺技能从快速构建转向决定什么值得构建或修改,以及实际更改的是哪个模块,如何验证该变更,如何治理它,以及如何长期维护它。”那些仅将AI视为第1层和第2层效率工具的团队可能会看到局部生产力提升,但却忽略了组织重塑这个更大的问题。

这篇论文与罗伯特·菲尔德特(Robert Feldt)在里约热内卢举办的2026年代理工程研讨会(Agentic Engineering 2026 Workshop)上的主旨演讲一同发布,并部分基于与沃尔沃合作伙伴在汽车行业的工业实践研究。

AI新闻无炒作——由人类精选

来源与参考

  1. 原始链接
  2. AI agents aren't replacing software engineering but expanding it far beyond code, researchers argue