西蒙·威尔森谈AI在软件工程中的转折点

Simon Willison·4月3日 04:40 UTC·作者 Simon Willison

关键信息

'转折点'指的是AI生成的代码变得基本正确且无需人工监督的时刻，使代理能够仅凭简单提示构建像Mac应用这样的功能程序。鹈鹕基准测试通过要求模型以SVG格式绘制一只骑自行车的鹈鹕来检验视觉推理能力。

资讯摘要

在Lenny的播客访谈中，西蒙·威尔森强调了2025年底的一个重大转折点：GPT-5.1和Claude Opus 4.5等AI模型达到可靠性阈值，生成的代码几乎总是能按预期运行。这一变化将焦点从编码转向测试，使软件质量评估变得更加困难。他认为软件工程师现在是其他信息工作者的风向标，因为代码有明确的正确性标准——不像文章或法律文件那样模糊。

威尔森还探讨了‘黑暗工厂’等伦理问题，即AI代理无需人类审查即可编写、测试并发布代码；同时引入‘鹈鹕基准’作为衡量AI视觉推理能力的方法。他的见解反映了业界对负责任AI使用日益增长的关注，以及工程师在自动化未来中角色的演变。

资讯正文

Lenny Rachitsky播客中关于代理工程的对话亮点

2026年4月2日

我作为嘉宾参加了Lenny Rachitsky的新一期播客，节目标题为《AI现状报告：我们已越过拐点，黑暗工厂即将到来，自动化时间表》。该期播客可在YouTube、Spotify和Apple Podcasts上收听。以下是我在对话中的重点内容及相关链接。

11月的拐点

软件工程师是其他信息工作者的风向标

用手机写代码

负责任的氛围编码

黑暗工厂与StrongDM

瓶颈已转移到测试环节

这些事令人疲惫

现在中断的成本低了很多

我估算软件的能力已经失效

处在中间位置的人很难

评估软件变得更困难

对AI工具容易使用的误解

编码代理现在对安全研究很有用

OpenClaw

记者擅长处理不可靠的信息源

鹈鹕基准测试

最后，关于鹦鹉的一些好消息

YouTube章节

11月的拐点

4:19 — 这两个实验室全力以赴提升模型代码能力的结果是，在11月我们迎来了我称之为拐点的时刻，GPT 5.1和Claude Opus 4.5相继问世。它们相较于前代模型虽只是小幅进步，但跨越了一个临界点：此前代码大多能运行，但必须非常仔细地关注；而突然之间，几乎每次都能按你要求执行，这带来了天壤之别。现在你可以启动一个编码代理，说‘帮我做一个Mac应用程序来实现这个功能’，得到的结果不会是一堆无法运行的混乱代码。

4:19 — 这两个实验室全力以赴提升模型代码能力的结果是，在11月我们迎来了我称之为拐点的时刻，GPT 5.1和Claude Opus 4.5相继问世。

它们相较于前代模型虽只是小幅进步，但跨越了一个临界点：此前代码大多能运行，但必须非常仔细地关注；而突然之间，几乎每次都能按你要求执行，这带来了天壤之别。

现在你可以启动一个编码代理，说‘帮我做一个Mac应用程序来实现这个功能’，得到的结果不会是一堆无法运行的混乱代码。

软件工程师是其他信息工作者的风向标

5:49 — 我一天能写出一万行代码，其中大部分都能正常运行。这算好吗？我们怎么从‘大部分能运行’变成‘全部都能运行’呢？我们正面临许多新问题，我认为这使我们成为其他信息工作者的风向标。相比于你交给这些代理处理的几乎所有其他问题，编写代码要容易得多，因为代码显然要么对要么错——它要么能运行，要么不能运行。虽然可能存在一些隐蔽的细微错误，但通常你能判断出这个东西是否真的有效。

如果它为你写了一篇论文，或者帮你准备了一份诉状，那就很难判断它是否真正完成了高质量的工作，也很难确定它哪些地方是对的、哪些是错的。但这种情况首先发生在我们软件工程师身上。我们最先遇到这个问题。我们现在正在思考：我们的职业前景会是什么样子？当过去占据我们大部分时间的工作如今不再占用那么多时间时，我们团队该如何协作？这会是什么样子？未来看到这种变化如何扩展到其他信息工作领域，将非常有趣。

律师们在这方面栽得特别惨。AI幻觉案例数据库现在已经达到了1228个案例！

还有开头冷开场的这段内容：

以前你向ChatGPT要代码，它会吐出一段代码，然后你需要自己运行并测试。现在编码代理已经替你完成了这一步。对我而言，一个开放的问题是：还有多少其他知识型工作领域实际上容易陷入这些代理循环？

用手机写代码

8:19 — 我在手机上写了大量的代码，这真的很疯狂。我甚至能在海边遛狗的时候完成高质量的工作，这太棒了。

我主要使用Claude的iPhone应用程序来完成这项工作，无论是通过常规的Claude聊天会话（现在可以执行代码）还是用它来控制Claude Code进行网页开发。

负责任地进行 vibe 编码

9:55 如果你为自己编写代码，而且只有你自己会因为bug而受到伤害，那就尽情发挥吧。这完全没有问题。但一旦你把这种 vibe 编码的代码交给别人使用，你的错误可能会真正伤害到他人，这时候你就需要停下来认真考虑了。

另见：什么时候可以放心 vibe 编码？

黑暗工厂与StrongDM

12:49 所谓‘黑暗工厂’，源于工厂自动化的一个理念：如果一个工厂自动化程度足够高，以至于不需要任何人在场，就可以关掉灯光。也就是说，机器可以在完全黑暗中运行，只要不需要人在车间里操作即可。那软件领域会是什么样子呢？……有一个政策规定：任何人都不能写代码——你不能在电脑上直接输入代码。说实话，六个月前我觉得这个想法很疯狂。但现在，我大概95%的代码都不是自己亲手打出来的。这个世界已经变得切实可行了，因为最新的模型已经足够强大，你可以告诉它们重命名某个变量、重构代码或添加某一行内容……它们就会自动完成，速度比你自己敲键盘还快。不过接下来的规则是：没有人读代码。这一点正是StrongDM去年开始实践的做法。

12:49 所谓‘黑暗工厂’，源于工厂自动化的一个理念：如果一个工厂自动化程度足够高，以至于不需要任何人在场，就可以关掉灯光。也就是说，机器可以在完全黑暗中运行，只要不需要人在车间里操作即可。那软件领域会是什么样子呢？……

有一个政策规定：任何人都不能写代码——你不能在电脑上直接输入代码。说实话，六个月前我觉得这个想法很疯狂。但现在，我大概95%的代码都不是自己亲手打出来的。这个世界已经变得切实可行了，因为最新的模型已经足够强大，你可以告诉它们重命名某个变量、重构代码或添加某一行内容……它们就会自动完成，速度比你自己敲键盘还快。

不过接下来的规则是：没有人读代码。这一点正是StrongDM去年开始实践的做法。

我在二月份写过更多关于StrongDM探索黑暗工厂的内容。

21:27 —过去，你会制定一份规格说明，然后交给工程团队。三周后，如果你运气好，他们才会给你一个实现版本。现在，这可能只需要三小时，具体取决于编码代理在该类任务中的成熟程度。那么现在呢？瓶颈出现在哪里？做过产品工作的人知道，最初的点子总是错误的。真正重要的是验证和测试它们。我们现在能更快地测试，因为我们能更快地搭建出可用的原型。因此，在我自己的工作中，我经常为想要设计的功能尝试三种不同的实现方式，因为这几乎不花时间。

我一直以来都很喜欢做原型，而现在原型的价值更高了。

22:40 —现在，UI原型几乎是免费的。ChatGPT 和 Claude 可以根据你的描述直接生成一个非常逼真的界面。你应该这样工作。我认为，任何从事产品设计的人如果不在这个阶段用‘ vibe coding’（即快速原型）的方式做一些小原型，就错过了最强大的助力。但接下来怎么办？当你有三个选项而不是一个时，如何证明哪个是最好的？我没有明确的答案。我预计这时候还是得靠传统的可用性测试。

46:35 —整个职业生涯中，我的超能力就是做原型。我总能快速做出可用的原型。我能在会议中出现时说：看，这就是它可能的样子。这曾经是我的独特优势。但现在，任何人都能做到我曾经能做到的事。

46:35 — 在我整个职业生涯中，我的超能力就是快速原型开发。我总是能迅速做出可用的原型。我能在会议中出现时说：看，这就是它可能的工作方式。这曾经是我的独特优势，但现在这种优势已经消失了。任何人都能做到我曾经能做到的事。

这些工作让人精疲力尽。

26:25 — 我发现，要高效使用编程代理，几乎耗尽了我作为软件工程师长达25年的全部经验，而且精神上非常疲惫。我可以同时启动四个代理，让它们并行处理四个不同的问题。到了上午11点左右，我就彻底筋疲力尽了。……我们需要学会一项新的个人技能，找到自己的新边界——以一种负责任的方式避免过度劳累。我认识很多人正在失眠，因为他们觉得：我的编程代理可以帮我干活，那我就再多撑半小时，再触发一堆任务……然后早上四点醒来。这显然不可持续。……我们使用某些工具的方式中，带有一种类似赌博和成瘾的成分。

26:25 — 我发现，要高效使用编程代理，几乎耗尽了我作为软件工程师长达25年的全部经验，而且精神上非常疲惫。我可以同时启动四个代理，让它们并行处理四个不同的问题。到了上午11点左右，我就彻底筋疲力尽了。

我们需要学会一项新的个人技能，找到自己的新边界——以一种负责任的方式避免过度劳累。

我认识很多人正在失眠，因为他们觉得：我的编程代理可以帮我干活，那我就再多撑半小时，再触发一堆任务……然后早上四点醒来。这显然不可持续。

我们使用某些工具的方式中，带有一种类似赌博和成瘾的成分。

现在打断的成本低多了。

45:16 — 人们常说，不要打断程序员的工作非常重要。程序员需要连续两到四小时的专注时间，才能构建起他们的思维模型并写出代码。这种情况已经完全改变了。我现在编程时，每隔一会儿只需要两分钟去提示一下代理下一步该做什么，然后我就可以去做别的事，再回来继续。我比以前更容易被打断了。

我对软件开发的估算能力已经失效了。

28:19 — 我有25年关于构建某样东西所需时间的经验。但现在这一切都完全失效了——它不再适用，因为我可以看一个任务就说‘这要花两周时间，不值得做’。而现在的情况是……也许只需要20分钟，因为过去需要两周的原因，正是那些繁琐的编码工作，而如今AI已经替我们解决了这些问题。我经常给AI布置一些我认为它做不到的任务，因为偶尔它真的能做到。当它做不到时，你会学到东西，对吧？但当它真的做到了，尤其是完成了一些以前模型无法做到的事情时，那实际上就是最前沿的AI研究。

36:56 — 我很多朋友都在聊他们手头积压了很多副业项目，过去十年、十五年里一直没做完。有些人说：‘我现在全做完了。’最近几个月，我每天晚上都会拿出一个项目来完成它。最后他们几乎会感到一种失落感，就像在说：‘好吧，我的待办清单没了，接下来我要做什么？’

29:29 — 所以，ThoughtWorks这家大型IT咨询公司一个月前组织了一次外派会议，邀请来自不同公司的多位工程副总裁讨论这个问题。他们提出的一个有趣观点是：这种技术对资深工程师非常有用，因为它放大了他们的能力；对新手工程师也非常有益，因为它解决了许多入职时的难题。问题在于处于中间阶段的人。如果你正处于职业生涯中期，还没达到顶级工程师的水平，但又不是新人，那么这一群体现在可能正面临最大的挑战。

29:29 —ThoughtWorks这家大型IT咨询公司大约一个月前举办了一次外出会议，邀请了来自不同公司的多位工程副总裁来讨论这个问题。他们提出的一个有趣观点是，这种技术对经验丰富的工程师特别有帮助，因为它能放大他们的技能；同时对新手工程师也非常有益，因为它能解决许多入职时的难题。但问题在于处于中间阶段的人群——如果你正处于职业生涯中期，尚未达到高级工程师水平，但又不是完全的新手，那么你可能是目前最需要关注的群体。

我提到过Cloudflare和Shopify都各自招聘了1000名实习生。

Lenny问我如何建议那些卡在中间阶段的人：

31:21 ——你把这么大的责任放在我身上了！我认为前进的方向是拥抱这些新技术，并思考如何利用它们让自己变得更好。很多人担心技能退化的问题：如果AI替你完成工作，你就学不到任何东西。我觉得如果你真有这种担忧，就应该主动挑战它。你需要清楚地意识到自己是如何应用这项技术的，想一想：我已经拥有了一个能回答任何问题、并且经常答对的工具。我该如何用它来增强自己的能力、学习新知识、承担更具雄心的项目？

33:05 ——现在一切都变化得太快了。唯一通用的技能就是适应变化的能力，这是我们每个人都需要的。在讨论如何与AI相处以取得卓越成就时，最常被提到的词是‘自主性’（agency）。我认为代理（agents）其实根本没有自主性。我甚至可以说，AI永远无法具备真正的自主性，因为它没有人类的动机。所以我建议大家投资于自己的自主性，投入精力去学习如何运用这项技术，让自己变得更优秀，也能做以前做不到的事情。

评估软件变得更加困难。

事实上，由于现在很容易创建带有详细文档和强大测试的软件，反而更难判断一个项目是否值得信赖。

有时候我会有一个软件或Python库的想法，花大约一个小时就能完成，达到有文档、有测试的状态，看起来就像我以前需要几周才能完成的那种软件——我可以把它上传到GitHub。但即便如此……我并不相信它。我不相信的原因是，我匆匆完成了所有这些工作……我认为质量可能还不错，但我没有花足够的时间去体验它，因此无法对质量感到自信。最重要的是，我还没用过它。事实证明，当我使用别人的软件时，最在意的是：我希望他们已经用了几个月。我有一些非常酷的软件，却从未真正用过它们——造出来比实际去试用还快！

人们普遍认为AI工具很容易上手

大家常说：哦，这肯定很容易吧？不就是个聊天机器人吗？其实并不容易。这是AI领域的一个重大误解，即认为高效使用这些工具很容易。实际上，这需要大量练习，需要尝试那些失败的方法，也需要尝试那些成功的方法。

编码代理现在在安全研究中已具实用性

在过去三到六个月里，它们开始被视为可信的安全研究人员，这在安全研究行业引发了震动。

正如托马斯·普塔切克（Thomas Ptacek）所说：漏洞研究已经‘被搞坏了’（Vulnerability Research Is Cooked）。

与此同时，开源项目正遭受大量垃圾安全报告的冲击。

20:05 —有一些人并不清楚自己在做什么，他们让ChatGPT帮忙找安全漏洞，然后把报告提交给维护者。这些报告看起来很专业，ChatGPT能生成格式非常规范的漏洞报告。但这完全是浪费时间，因为这些问题根本没被验证过，未必真的存在。

一个正确的做法例子是Anthropic与Firefox的合作，Anthropic的安全团队在将问题转交给Mozilla之前，对每一个安全问题都进行了核实。

OpenClaw

当然我们不得不聊一聊OpenClaw！Lenny当时就在Mac Mini上运行着它。

1:29:23 —OpenClaw表明人们多么渴望拥有一个个人数字助手，以至于他们不仅愿意忽视安全性问题，甚至安装使用本身也并不容易：你需要创建API密钥和令牌，还要安装各种软件。设置过程并不简单，但仍有数十万人成功部署了它。OpenClaw的第一行代码写于11月25日，随后在超级碗期间，AI.com投放了一则广告，这实际上是一个打着白标旗号的OpenClaw托管服务（本质上是概念产品）。从11月第一行代码到超级碗广告，我们只用了三个月半的时间。

1:29:23 —OpenClaw表明人们多么渴望拥有一个个人数字助手，以至于他们不仅愿意忽视安全性问题，甚至安装使用本身也并不容易：你需要创建API密钥和令牌，还要安装各种软件。设置过程并不简单，但仍有数十万人成功部署了它。……

OpenClaw的第一行代码写于11月25日，随后在超级碗期间，AI.com投放了一则广告，这实际上是一个打着白标旗号的OpenClaw托管服务（本质上是概念产品）。从11月第一行代码到超级碗广告，我们只用了三个月半的时间。

我依然很喜欢Drew Breunig对OpenClaw的描述：它就像一只数字宠物。

我一个朋友说，OpenClaw其实就是一种电子宠物，你买一台Mac Mini，相当于买了个鱼缸。

记者擅长处理不可靠的信息源

谈到我在数据新闻领域探索AI应用时使用的Datasette工具：

1:34:58 —你可能会觉得AI跟新闻业格格不入，因为新闻的核心就是寻找真相。但另一方面，记者每天都在面对不可靠的消息来源。新闻的艺术在于，你接触很多人，其中一些人在撒谎，而你要从中分辨出真相。所以只要记者把AI当作另一个不可靠的信源来对待，他们反而比其他职业更具备与AI协作的能力。

1:34:58 —你可能会以为AI在新闻业中是个很不合适的工具，因为新闻的核心就是寻找真相。但另一方面，记者们经常要面对不可靠的信息来源。新闻的艺术就在于你和很多人交谈，其中一些人会对你撒谎，而你要找出真相。所以只要记者把AI当作另一个不可靠的来源，他们实际上比其他职业更擅长与AI合作。

关于鹈鹕基准测试

当然我们聊到了鹈鹕骑自行车这件事：

56:10 —看起来它们画出一只骑自行车的鹈鹕的能力，和它们在其他所有任务上的表现之间存在非常强的相关性。没人能向我解释为什么是这样。……有人不断问我，如果实验室在基准测试中作弊怎么办？我的回答始终如一：我这辈子真正想要的，就是一张特别好的鹈鹕骑自行车的图片。如果我能骗全世界所有AI实验室都去作弊以获得这张图，那这恰恰达到了我的目标。

56:10 —看起来它们画出一只骑自行车的鹈鹕的能力，和它们在其他所有任务上的表现之间存在非常强的相关性。没人能向我解释为什么是这样。……

人们不断问我，如果实验室在基准测试中作弊怎么办？我的回答始终如一：我这辈子真正想要的，就是一张特别好的鹈鹕骑自行车的图片。如果我能骗全世界所有AI实验室都去作弊以获得这张图，那这恰恰达到了我的目标。

59:56 —我觉得人们常常忽略的一点是，这个领域本质上就很有趣。我们拥有这些极其昂贵、耗电量巨大的设备，号称是史上最先进的计算机。但如果你让它们画一只鹈鹕骑自行车，结果却像五岁小孩画出来的那样。这对我来说真的很好笑。

最后，关于鹦鹉的好消息

莱尼问我还有什么想跟听众分享来结束这期节目，于是我选了目前世界上最好的新闻。

1:38:10 —新西兰有一种稀有的鹦鹉叫鸮鹦鹉（Kākāpō），全球只剩下250只。它们不会飞，是夜行性的鹦鹉，长得圆胖可爱，呈翠绿色。好消息是，2026年它们迎来了一个极佳的繁殖季。鸮鹦鹉只有在新西兰的罗米树（Rimu trees）大量结果时才会繁殖，而自2022年以来，罗米树从未大规模结果——这意味着过去四年里没有一只幼鸟出生。今年，罗米树结果了，鸮鹦鹉开始繁殖，已经有几十只雏鸟诞生。这是个非常好的时刻。这对稀有新西兰鹦鹉来说是重大利好，你应该去了解一下它们，因为它们非常迷人。

1:38:10 — 新西兰有一种罕见的鹦鹉叫鸮鹦鹉（Kākāpō），全世界只剩下约250只。它们是不能飞行的夜行性鹦鹉，外形圆胖、颜色翠绿，非常可爱。好消息是，2026年它们迎来了极佳的繁殖季节。

鸮鹦鹉只有在新西兰的罗米树（Rimu trees）大规模结果时才会繁殖，而自2022年以来，罗米树从未大规模结果过——这意味着过去四年里一只小鸮鹦鹉都没有出生。

今年，罗米树开始结果了，鸮鹦鹉正在繁殖，已经有数十只雏鸟诞生。这真是一个非常好的时刻，对稀有的新西兰鹦鹉来说是个极大的好消息，你应该去了解一下它们，因为它们非常迷人。

每个人都应该观看Rakiura在巢中照顾两只雏鸟的直播！

YouTube章节

以下是Lenny团队为该视频设定的完整章节列表：

00:00 ：介绍Simon Willison

02:40 ：2025年11月的转折点

08:01 ：当前AI编程的可能性

10:42 ： vibe coding 与代理工程的区别

13:57 ：黑暗工厂模式

20:41 ：瓶颈已经转移的位置

23:36 ：人类大脑仍具价值的地方

25:32 ：为软件工程师辩护

29:12 ：为什么经验丰富的工程师能获得更好结果

30:48 ：避免沦为永久底层群体的建议

33:52 ：利用AI放大你的技能

35:12 ：为什么Simon说他比以往任何时候都更努力工作

37:23 ：2022年前人工编写的代码市场

40:01 ：预测：到2026年底，50%的工程师将用95%的AI代码编写程序

44:34 ：廉价代码的影响

48:27 ：Simon的AI工具栈

54:08 ：用AI进行研究

55:12 ：“鹈鹕骑自行车”基准测试

59:01 ：AI本身的荒谬性

1:00:52 ：囤积你擅长的事情

1:08:21 ：红/绿TDD模式以生成更好的AI代码

1:14:43 ：用优秀的模板启动项目

1:16:31 ：致命三重奏与提示注入

1:21:53 ：为什么97%的有效率是不及格

1:25:19 ：偏差正常化的现象

1:28:32 ：OpenClaw：所有人都忽视的安全噩梦

1:34:22 ：Simon下一步做什么

1:36:47 ：零交付咨询

1:38:05 ：关于鸮鹦鹉的好消息

来源与参考

收录于 2026-04-03