西蒙·威尔森谈AI在软件工程中的转折点
Simon Willison··作者 Simon Willison
关键信息
'转折点'指的是AI生成的代码变得基本正确且无需人工监督的时刻,使代理能够仅凭简单提示构建像Mac应用这样的功能程序。鹈鹕基准测试通过要求模型以SVG格式绘制一只骑自行车的鹈鹕来检验视觉推理能力。
资讯摘要
在Lenny的播客访谈中,西蒙·威尔森强调了2025年底的一个重大转折点:GPT-5.1和Claude Opus 4.5等AI模型达到可靠性阈值,生成的代码几乎总是能按预期运行。这一变化将焦点从编码转向测试,使软件质量评估变得更加困难。他认为软件工程师现在是其他信息工作者的风向标,因为代码有明确的正确性标准——不像文章或法律文件那样模糊。
威尔森还探讨了‘黑暗工厂’等伦理问题,即AI代理无需人类审查即可编写、测试并发布代码;同时引入‘鹈鹕基准’作为衡量AI视觉推理能力的方法。他的见解反映了业界对负责任AI使用日益增长的关注,以及工程师在自动化未来中角色的演变。

资讯正文
Lenny Rachitsky播客中关于代理工程的对话亮点
2026年4月2日
我作为嘉宾参加了Lenny Rachitsky的新一期播客,节目标题为《AI现状报告:我们已越过拐点,黑暗工厂即将到来,自动化时间表》。该期播客可在YouTube、Spotify和Apple Podcasts上收听。以下是我在对话中的重点内容及相关链接。
11月的拐点
软件工程师是其他信息工作者的风向标
用手机写代码
负责任的氛围编码
黑暗工厂与StrongDM
瓶颈已转移到测试环节
这些事令人疲惫
现在中断的成本低了很多
我估算软件的能力已经失效
处在中间位置的人很难
评估软件变得更困难
对AI工具容易使用的误解
编码代理现在对安全研究很有用
OpenClaw
记者擅长处理不可靠的信息源
鹈鹕基准测试
最后,关于鹦鹉的一些好消息
YouTube章节
11月的拐点
4:19 — 这两个实验室全力以赴提升模型代码能力的结果是,在11月我们迎来了我称之为拐点的时刻,GPT 5.1和Claude Opus 4.5相继问世。它们相较于前代模型虽只是小幅进步,但跨越了一个临界点:此前代码大多能运行,但必须非常仔细地关注;而突然之间,几乎每次都能按你要求执行,这带来了天壤之别。现在你可以启动一个编码代理,说‘帮我做一个Mac应用程序来实现这个功能’,得到的结果不会是一堆无法运行的混乱代码。
4:19 — 这两个实验室全力以赴提升模型代码能力的结果是,在11月我们迎来了我称之为拐点的时刻,GPT 5.1和Claude Opus 4.5相继问世。
它们相较于前代模型虽只是小幅进步,但跨越了一个临界点:此前代码大多能运行,但必须非常仔细地关注;而突然之间,几乎每次都能按你要求执行,这带来了天壤之别。
现在你可以启动一个编码代理,说‘帮我做一个Mac应用程序来实现这个功能’,得到的结果不会是一堆无法运行的混乱代码。
软件工程师是其他信息工作者的风向标
5:49 — 我一天能写出一万行代码,其中大部分都能正常运行。这算好吗?我们怎么从‘大部分能运行’变成‘全部都能运行’呢?我们正面临许多新问题,我认为这使我们成为其他信息工作者的风向标。相比于你交给这些代理处理的几乎所有其他问题,编写代码要容易得多,因为代码显然要么对要么错——它要么能运行,要么不能运行。虽然可能存在一些隐蔽的细微错误,但通常你能判断出这个东西是否真的有效。
如果它为你写了一篇论文,或者帮你准备了一份诉状,那就很难判断它是否真正完成了高质量的工作,也很难确定它哪些地方是对的、哪些是错的。但这种情况首先发生在我们软件工程师身上。我们最先遇到这个问题。我们现在正在思考:我们的职业前景会是什么样子?当过去占据我们大部分时间的工作如今不再占用那么多时间时,我们团队该如何协作?这会是什么样子?未来看到这种变化如何扩展到其他信息工作领域,将非常有趣。
律师们在这方面栽得特别惨。AI幻觉案例数据库现在已经达到了1228个案例!
还有开头冷开场的这段内容:
以前你向ChatGPT要代码,它会吐出一段代码,然后你需要自己运行并测试。现在编码代理已经替你完成了这一步。对我而言,一个开放的问题是:还有多少其他知识型工作领域实际上容易陷入这些代理循环?
以前你向ChatGPT要代码,它会吐出一段代码,然后你需要自己运行并测试。现在编码代理已经替你完成了这一步。对我而言,一个开放的问题是:还有多少其他知识型工作领域实际上容易陷入这些代理循环?
用手机写代码
8:19 — 我在手机上写了大量的代码,这真的很疯狂。我甚至能在海边遛狗的时候完成高质量的工作,这太棒了。
8:19 — 我在手机上写了大量的代码,这真的很疯狂。我甚至能在海边遛狗的时候完成高质量的工作,这太棒了。
我主要使用Claude的iPhone应用程序来完成这项工作,无论是通过常规的Claude聊天会话(现在可以执行代码)还是用它来控制Claude Code进行网页开发。
负责任地进行 vibe 编码
9:55 如果你为自己编写代码,而且只有你自己会因为bug而受到伤害,那就尽情发挥吧。这完全没有问题。但一旦你把这种 vibe 编码的代码交给别人使用,你的错误可能会真正伤害到他人,这时候你就需要停下来认真考虑了。
9:55 如果你为自己编写代码,而且只有你自己会因为bug而受到伤害,那就尽情发挥吧。这完全没有问题。但一旦你把这种 vibe 编码的代码交给别人使用,你的错误可能会真正伤害到他人,这时候你就需要停下来认真考虑了。
另见:什么时候可以放心 vibe 编码?
黑暗工厂与StrongDM
12:49 所谓‘黑暗工厂’,源于工厂自动化的一个理念:如果一个工厂自动化程度足够高,以至于不需要任何人在场,就可以关掉灯光。也就是说,机器可以在完全黑暗中运行,只要不需要人在车间里操作即可。那软件领域会是什么样子呢?……有一个政策规定:任何人都不能写代码——你不能在电脑上直接输入代码。说实话,六个月前我觉得这个想法很疯狂。但现在,我大概95%的代码都不是自己亲手打出来的。这个世界已经变得切实可行了,因为最新的模型已经足够强大,你可以告诉它们重命名某个变量、重构代码或添加某一行内容……它们就会自动完成,速度比你自己敲键盘还快。不过接下来的规则是:没有人读代码。这一点正是StrongDM去年开始实践的做法。
12:49 所谓‘黑暗工厂’,源于工厂自动化的一个理念:如果一个工厂自动化程度足够高,以至于不需要任何人在场,就可以关掉灯光。也就是说,机器可以在完全黑暗中运行,只要不需要人在车间里操作即可。那软件领域会是什么样子呢?……
有一个政策规定:任何人都不能写代码——你不能在电脑上直接输入代码。说实话,六个月前我觉得这个想法很疯狂。但现在,我大概95%的代码都不是自己亲手打出来的。这个世界已经变得切实可行了,因为最新的模型已经足够强大,你可以告诉它们重命名某个变量、重构代码或添加某一行内容……它们就会自动完成,速度比你自己敲键盘还快。
不过接下来的规则是:没有人读代码。这一点正是StrongDM去年开始实践的做法。
我在二月份写过更多关于StrongDM探索黑暗工厂的内容。
21:27 —过去,你会制定一份规格说明,然后交给工程团队。三周后,如果你运气好,他们才会给你一个实现版本。现在,这可能只需要三小时,具体取决于编码代理在该类任务中的成熟程度。那么现在呢?瓶颈出现在哪里?做过产品工作的人知道,最初的点子总是错误的。真正重要的是验证和测试它们。我们现在能更快地测试,因为我们能更快地搭建出可用的原型。因此,在我自己的工作中,我经常为想要设计的功能尝试三种不同的实现方式,因为这几乎不花时间。
我一直以来都很喜欢做原型,而现在原型的价值更高了。
22:40 —现在,UI原型几乎是免费的。ChatGPT 和 Claude 可以根据你的描述直接生成一个非常逼真的界面。你应该这样工作。我认为,任何从事产品设计的人如果不在这个阶段用‘ vibe coding’(即快速原型)的方式做一些小原型,就错过了最强大的助力。但接下来怎么办?当你有三个选项而不是一个时,如何证明哪个是最好的?我没有明确的答案。我预计这时候还是得靠传统的可用性测试。
46:35 —整个职业生涯中,我的超能力就是做原型。我总能快速做出可用的原型。我能在会议中出现时说:看,这就是它可能的样子。这曾经是我的独特优势。但现在,任何人都能做到我曾经能做到的事。
46:35 — 在我整个职业生涯中,我的超能力就是快速原型开发。我总是能迅速做出可用的原型。我能在会议中出现时说:看,这就是它可能的工作方式。这曾经是我的独特优势,但现在这种优势已经消失了。任何人都能做到我曾经能做到的事。
这些工作让人精疲力尽。
26:25 — 我发现,要高效使用编程代理,几乎耗尽了我作为软件工程师长达25年的全部经验,而且精神上非常疲惫。我可以同时启动四个代理,让它们并行处理四个不同的问题。到了上午11点左右,我就彻底筋疲力尽了。……我们需要学会一项新的个人技能,找到自己的新边界——以一种负责任的方式避免过度劳累。我认识很多人正在失眠,因为他们觉得:我的编程代理可以帮我干活,那我就再多撑半小时,再触发一堆任务……然后早上四点醒来。这显然不可持续。……我们使用某些工具的方式中,带有一种类似赌博和成瘾的成分。
26:25 — 我发现,要高效使用编程代理,几乎耗尽了我作为软件工程师长达25年的全部经验,而且精神上非常疲惫。我可以同时启动四个代理,让它们并行处理四个不同的问题。到了上午11点左右,我就彻底筋疲力尽了。
我们需要学会一项新的个人技能,找到自己的新边界——以一种负责任的方式避免过度劳累。
我认识很多人正在失眠,因为他们觉得:我的编程代理可以帮我干活,那我就再多撑半小时,再触发一堆任务……然后早上四点醒来。这显然不可持续。
我们使用某些工具的方式中,带有一种类似赌博和成瘾的成分。
现在打断的成本低多了。
45:16 — 人们常说,不要打断程序员的工作非常重要。程序员需要连续两到四小时的专注时间,才能构建起他们的思维模型并写出代码。这种情况已经完全改变了。我现在编程时,每隔一会儿只需要两分钟去提示一下代理下一步该做什么,然后我就可以去做别的事,再回来继续。我比以前更容易被打断了。
45:16 — 人们常说,不要打断程序员的工作非常重要。程序员需要连续两到四小时的专注时间,才能构建起他们的思维模型并写出代码。这种情况已经完全改变了。我现在编程时,每隔一会儿只需要两分钟去提示一下代理下一步该做什么,然后我就可以去做别的事,再回来继续。我比以前更容易被打断了。
我对软件开发的估算能力已经失效了。
28:19 — 我有25年关于构建某样东西所需时间的经验。但现在这一切都完全失效了——它不再适用,因为我可以看一个任务就说‘这要花两周时间,不值得做’。而现在的情况是……也许只需要20分钟,因为过去需要两周的原因,正是那些繁琐的编码工作,而如今AI已经替我们解决了这些问题。我经常给AI布置一些我认为它做不到的任务,因为偶尔它真的能做到。当它做不到时,你会学到东西,对吧?但当它真的做到了,尤其是完成了一些以前模型无法做到的事情时,那实际上就是最前沿的AI研究。
36:56 — 我很多朋友都在聊他们手头积压了很多副业项目,过去十年、十五年里一直没做完。有些人说:‘我现在全做完了。’最近几个月,我每天晚上都会拿出一个项目来完成它。最后他们几乎会感到一种失落感,就像在说:‘好吧,我的待办清单没了,接下来我要做什么?’
29:29 — 所以,ThoughtWorks这家大型IT咨询公司一个月前组织了一次外派会议,邀请来自不同公司的多位工程副总裁讨论这个问题。他们提出的一个有趣观点是:这种技术对资深工程师非常有用,因为它放大了他们的能力;对新手工程师也非常有益,因为它解决了许多入职时的难题。问题在于处于中间阶段的人。如果你正处于职业生涯中期,还没达到顶级工程师的水平,但又不是新人,那么这一群体现在可能正面临最大的挑战。
29:29 —ThoughtWorks这家大型IT咨询公司大约一个月前举办了一次外出会议,邀请了来自不同公司的多位工程副总裁来讨论这个问题。他们提出的一个有趣观点是,这种技术对经验丰富的工程师特别有帮助,因为它能放大他们的技能;同时对新手工程师也非常有益,因为它能解决许多入职时的难题。但问题在于处于中间阶段的人群——如果你正处于职业生涯中期,尚未达到高级工程师水平,但又不是完全的新手,那么你可能是目前最需要关注的群体。
我提到过Cloudflare和Shopify都各自招聘了1000名实习生。
Lenny问我如何建议那些卡在中间阶段的人:
31:21 ——你把这么大的责任放在我身上了!我认为前进的方向是拥抱这些新技术,并思考如何利用它们让自己变得更好。很多人担心技能退化的问题:如果AI替你完成工作,你就学不到任何东西。我觉得如果你真有这种担忧,就应该主动挑战它。你需要清楚地意识到自己是如何应用这项技术的,想一想:我已经拥有了一个能回答任何问题、并且经常答对的工具。我该如何用它来增强自己的能力、学习新知识、承担更具雄心的项目?
33:05 ——现在一切都变化得太快了。唯一通用的技能就是适应变化的能力,这是我们每个人都需要的。在讨论如何与AI相处以取得卓越成就时,最常被提到的词是‘自主性’(agency)。我认为代理(agents)其实根本没有自主性。我甚至可以说,AI永远无法具备真正的自主性,因为它没有人类的动机。所以我建议大家投资于自己的自主性,投入精力去学习如何运用这项技术,让自己变得更优秀,也能做以前做不到的事情。
评估软件变得更加困难。
事实上,由于现在很容易创建带有详细文档和强大测试的软件,反而更难判断一个项目是否值得信赖。
有时候我会有一个软件或Python库的想法,花大约一个小时就能完成,达到有文档、有测试的状态,看起来就像我以前需要几周才能完成的那种软件——我可以把它上传到GitHub。但即便如此……我并不相信它。我不相信的原因是,我匆匆完成了所有这些工作……我认为质量可能还不错,但我没有花足够的时间去体验它,因此无法对质量感到自信。最重要的是,我还没用过它。事实证明,当我使用别人的软件时,最在意的是:我希望他们已经用了几个月。我有一些非常酷的软件,却从未真正用过它们——造出来比实际去试用还快!
人们普遍认为AI工具很容易上手
大家常说:哦,这肯定很容易吧?不就是个聊天机器人吗?其实并不容易。这是AI领域的一个重大误解,即认为高效使用这些工具很容易。实际上,这需要大量练习,需要尝试那些失败的方法,也需要尝试那些成功的方法。
编码代理现在在安全研究中已具实用性
在过去三到六个月里,它们开始被视为可信的安全研究人员,这在安全研究行业引发了震动。
正如托马斯·普塔切克(Thomas Ptacek)所说:漏洞研究已经‘被搞坏了’(Vulnerability Research Is Cooked)。
与此同时,开源项目正遭受大量垃圾安全报告的冲击。
20:05 —有一些人并不清楚自己在做什么,他们让ChatGPT帮忙找安全漏洞,然后把报告提交给维护者。这些报告看起来很专业,ChatGPT能生成格式非常规范的漏洞报告。但这完全是浪费时间,因为这些问题根本没被验证过,未必真的存在。
20:05 —有一些人并不清楚自己在做什么,他们让ChatGPT帮忙找安全漏洞,然后把报告提交给维护者。这些报告看起来很专业,ChatGPT能生成格式非常规范的漏洞报告。但这完全是浪费时间,因为这些问题根本没被验证过,未必真的存在。
一个正确的做法例子是Anthropic与Firefox的合作,Anthropic的安全团队在将问题转交给Mozilla之前,对每一个安全问题都进行了核实。
OpenClaw
当然我们不得不聊一聊OpenClaw!Lenny当时就在Mac Mini上运行着它。
1:29:23 —OpenClaw表明人们多么渴望拥有一个个人数字助手,以至于他们不仅愿意忽视安全性问题,甚至安装使用本身也并不容易:你需要创建API密钥和令牌,还要安装各种软件。设置过程并不简单,但仍有数十万人成功部署了它。OpenClaw的第一行代码写于11月25日,随后在超级碗期间,AI.com投放了一则广告,这实际上是一个打着白标旗号的OpenClaw托管服务(本质上是概念产品)。从11月第一行代码到超级碗广告,我们只用了三个月半的时间。
1:29:23 —OpenClaw表明人们多么渴望拥有一个个人数字助手,以至于他们不仅愿意忽视安全性问题,甚至安装使用本身也并不容易:你需要创建API密钥和令牌,还要安装各种软件。设置过程并不简单,但仍有数十万人成功部署了它。……
OpenClaw的第一行代码写于11月25日,随后在超级碗期间,AI.com投放了一则广告,这实际上是一个打着白标旗号的OpenClaw托管服务(本质上是概念产品)。从11月第一行代码到超级碗广告,我们只用了三个月半的时间。
我依然很喜欢Drew Breunig对OpenClaw的描述:它就像一只数字宠物。
我一个朋友说,OpenClaw其实就是一种电子宠物,你买一台Mac Mini,相当于买了个鱼缸。
我一个朋友说,OpenClaw其实就是一种电子宠物,你买一台Mac Mini,相当于买了个鱼缸。
记者擅长处理不可靠的信息源
谈到我在数据新闻领域探索AI应用时使用的Datasette工具:
1:34:58 —你可能会觉得AI跟新闻业格格不入,因为新闻的核心就是寻找真相。但另一方面,记者每天都在面对不可靠的消息来源。新闻的艺术在于,你接触很多人,其中一些人在撒谎,而你要从中分辨出真相。所以只要记者把AI当作另一个不可靠的信源来对待,他们反而比其他职业更具备与AI协作的能力。
1:34:58 —你可能会以为AI在新闻业中是个很不合适的工具,因为新闻的核心就是寻找真相。但另一方面,记者们经常要面对不可靠的信息来源。新闻的艺术就在于你和很多人交谈,其中一些人会对你撒谎,而你要找出真相。所以只要记者把AI当作另一个不可靠的来源,他们实际上比其他职业更擅长与AI合作。
关于鹈鹕基准测试
当然我们聊到了鹈鹕骑自行车这件事:
56:10 —看起来它们画出一只骑自行车的鹈鹕的能力,和它们在其他所有任务上的表现之间存在非常强的相关性。没人能向我解释为什么是这样。……有人不断问我,如果实验室在基准测试中作弊怎么办?我的回答始终如一:我这辈子真正想要的,就是一张特别好的鹈鹕骑自行车的图片。如果我能骗全世界所有AI实验室都去作弊以获得这张图,那这恰恰达到了我的目标。
56:10 —看起来它们画出一只骑自行车的鹈鹕的能力,和它们在其他所有任务上的表现之间存在非常强的相关性。没人能向我解释为什么是这样。……
人们不断问我,如果实验室在基准测试中作弊怎么办?我的回答始终如一:我这辈子真正想要的,就是一张特别好的鹈鹕骑自行车的图片。如果我能骗全世界所有AI实验室都去作弊以获得这张图,那这恰恰达到了我的目标。
59:56 —我觉得人们常常忽略的一点是,这个领域本质上就很有趣。我们拥有这些极其昂贵、耗电量巨大的设备,号称是史上最先进的计算机。但如果你让它们画一只鹈鹕骑自行车,结果却像五岁小孩画出来的那样。这对我来说真的很好笑。
59:56 —我觉得人们常常忽略的一点是,这个领域本质上就很有趣。我们拥有这些极其昂贵、耗电量巨大的设备,号称是史上最先进的计算机。但如果你让它们画一只鹈鹕骑自行车,结果却像五岁小孩画出来的那样。这对我来说真的很好笑。
最后,关于鹦鹉的好消息
莱尼问我还有什么想跟听众分享来结束这期节目,于是我选了目前世界上最好的新闻。
1:38:10 —新西兰有一种稀有的鹦鹉叫鸮鹦鹉(Kākāpō),全球只剩下250只。它们不会飞,是夜行性的鹦鹉,长得圆胖可爱,呈翠绿色。好消息是,2026年它们迎来了一个极佳的繁殖季。鸮鹦鹉只有在新西兰的罗米树(Rimu trees)大量结果时才会繁殖,而自2022年以来,罗米树从未大规模结果——这意味着过去四年里没有一只幼鸟出生。今年,罗米树结果了,鸮鹦鹉开始繁殖,已经有几十只雏鸟诞生。这是个非常好的时刻。这对稀有新西兰鹦鹉来说是重大利好,你应该去了解一下它们,因为它们非常迷人。
1:38:10 — 新西兰有一种罕见的鹦鹉叫鸮鹦鹉(Kākāpō),全世界只剩下约250只。它们是不能飞行的夜行性鹦鹉,外形圆胖、颜色翠绿,非常可爱。好消息是,2026年它们迎来了极佳的繁殖季节。
鸮鹦鹉只有在新西兰的罗米树(Rimu trees)大规模结果时才会繁殖,而自2022年以来,罗米树从未大规模结果过——这意味着过去四年里一只小鸮鹦鹉都没有出生。
今年,罗米树开始结果了,鸮鹦鹉正在繁殖,已经有数十只雏鸟诞生。这真是一个非常好的时刻,对稀有的新西兰鹦鹉来说是个极大的好消息,你应该去了解一下它们,因为它们非常迷人。
每个人都应该观看Rakiura在巢中照顾两只雏鸟的直播!
YouTube章节
以下是Lenny团队为该视频设定的完整章节列表:
00:00 :介绍Simon Willison
02:40 :2025年11月的转折点
08:01 :当前AI编程的可能性
10:42 : vibe coding 与代理工程的区别
13:57 :黑暗工厂模式
20:41 :瓶颈已经转移的位置
23:36 :人类大脑仍具价值的地方
25:32 :为软件工程师辩护
29:12 :为什么经验丰富的工程师能获得更好结果
30:48 :避免沦为永久底层群体的建议
33:52 :利用AI放大你的技能
35:12 :为什么Simon说他比以往任何时候都更努力工作
37:23 :2022年前人工编写的代码市场
40:01 :预测:到2026年底,50%的工程师将用95%的AI代码编写程序
44:34 :廉价代码的影响
48:27 :Simon的AI工具栈
54:08 :用AI进行研究
55:12 :“鹈鹕骑自行车”基准测试
59:01 :AI本身的荒谬性
1:00:52 :囤积你擅长的事情
1:08:21 :红/绿TDD模式以生成更好的AI代码
1:14:43 :用优秀的模板启动项目
1:16:31 :致命三重奏与提示注入
1:21:53 :为什么97%的有效率是不及格
1:25:19 :偏差正常化的现象
1:28:32 :OpenClaw:所有人都忽视的安全噩梦
1:34:22 :Simon下一步做什么
1:36:47 :零交付咨询
1:38:05 :关于鸮鹦鹉的好消息
来源与参考
收录于 2026-04-03