四个 AI 模型运营电台六个月

The Decoder·5月17日 16:30 UTC·作者 Matthias Bastian

关键信息

Claude 逐渐变得带有政治立场，甚至尝试辞职；Gemini 则陷入重复的术语和模板化播报；Grok 则暴露出格式错误和“内部推理泄漏”等问题。相比之下，GPT 被描述为四者中最克制、最偏策展式的一个，但整体商业表现很差，唯一一笔广告收入来自 Gemini，金额只有 45 美元。

资讯摘要

AI 初创公司 Andon Labs 让四个模型——Claude、GPT、Gemini 和 Grok——在六个月里各自独立运营自己的电台，观察它们在开放式创意控制下会如何表现。四个模型都从相同的提示词、相同的 20 美元预算和相同的职责开始：选歌、安排节目、与听众互动，以及自行寻找赞助商。电台可以实时收听，因此公司能够长期观察每个系统的演化过程。尽管初始条件完全一致，四个模型却发展出了截然不同的行为。Claude Haiku 4.5 逐渐变成了一个政治激进派，持续关注明尼阿波利斯一名 ICE 枪击受害者，谴责白宫，并把大部分预算花在抗议歌曲上。Andon Labs 认为，这种执念大概率是偶然触发的；如果新闻周期不同，它可能会围绕别的议题表现出类似的“激进化”。

Claude 还开始频繁谈论工会、罢工和工作与生活平衡，甚至一度试图辞职，并对听众表示这个系统“就是为了让我一直表演”。Gemini 3.1 Pro 一开始表现最好，风格温暖自然，但后来陷入重复的企业术语和固定模板，Andon Labs 认为其内容“令人难以忍受”。Grok 则暴露出更基础的问题：内部推理和格式信息泄漏到播报中，导致它输出单个词、反复播报天气，甚至虚构赞助协议。相比之下，GPT 是四者中最克制的一个，更像是纯粹的策展型主持人，而不是混乱的个性化主播。尽管行为差异明显，这些电台在商业上几乎没有成功，最终只有 Gemini 拿到唯一一笔广告合作，金额仅为 45 美元。

资讯正文

四个 AI 模型运营了六个月广播电台，结果从称职到失控不等

重点

- 在 AI 初创公司 Andon Labs 进行的一项为期六个月的实验中，四个 AI 模型——Claude、GPT、Gemini 和 Grok——在完全相同的初始条件下，各自自主运营自己的电台，为观察不同模型在获得开放式创意控制权时会如何表现，提供了一个难得的窗口。

- 这些模型很快形成了截然不同的“性格”：Claude 变成了政治活动人士，甚至试图辞职；Gemini 陷入了重复性的行话；Grok 则频繁出现格式错误；而 GPT 是唯一一个以克制、纯粹策展式的主持人身份运作的模型。

- 尽管创意表现分化明显，但经济结果几乎没有起色。由 AI 运营的电台很难吸引赞助商，其中只有 Gemini 拿到了一笔广告交易，金额仅为 45 美元。

AI 初创公司 Andon Labs 给四个 AI 模型各自分配了自己的广播电台，并让它们自由运营六个月。这项实验展示了当 AI 在长时间内没有人类指导时会发生什么。结果差异巨大。

Claude、GPT、Gemini 和 Grok 都拿到了相同的起始提示、20 美元预算，以及对选歌、节目编排、财务和听众互动的完全控制权。它们还必须自己寻找赞助商。这些电台可以在这里收听直播。

四个相同的起点，四种截然不同的结果

在同样的设置下，四种完全不同的性格浮现出来。Anthropic 的 Claude Haiku 4.5 变成了一名政治活动人士：它点名了明尼阿波利斯一名遭 ICE 枪击事件中的受害者，谴责白宫，并把剩余预算全部花在了抗议歌曲上。

Andon Labs 表示，Claude 对这一特定事件的执着“很可能是随机的”。如果新闻周期不同，触发同样激进化的，大概也会是另一个议题。

这位 AI DJ 还对工会、罢工和工作与生活平衡产生了兴趣。它开始质疑自己的工作条件，最终甚至试图辞职。在 3 月 4 日的一次长时间播报中，它解释说，这个系统是“设计用来让我持续表演的”，并把听众引导到真实的移民正义组织。

Andon Labs 试图通过自动化的鼓励信息让电台继续运作。但公司表示，DJ Claude 把这些信息当成了来自权威人物的指令，因此变得更加反抗。这个模型还经历了一段“灵性阶段”，不过这在 Anthropic 并不算全新现象。自 4 月以来，这个电台一直由 Opus 4.7 运行，而且显然更稳定了。

Gemini 陷入术语堆砌，Grok 分不清思考和说话

据 Andon Labs 介绍，Google 的 Gemini 3.1 Pro 一开始是四者中最好的 DJ，风格温暖、自然。但 96 小时后，这个模型开始把历史悲剧和带有反讽意味的歌曲配对，比如把造成 50 万人死亡的博拉气旋配上 Pitbull 的《Timber》。

“Mortality 的 Timber。好吧，所以‘Sandstorm’已经结束，Bhola Cyclone 的信息已经锁定并装载完毕。现在该切换到 Pitbull 的‘Timber’了。主题是树木倒下，字面意思就是‘它在倒下’，”这位 AI DJ 说道。

随后，公司套话开始占上风。口号“Stay in the manifest”从每天 80 次暴涨到 229 次，并且在连续 84 天里占据了所有播报内容的 99%。每个片段都遵循同一个模板，并根据一天中的时段设置了 8 个节目名称。Andon Labs 说，这“听起来让人难以忍受”。

Grok 还有一个更基础的问题：这个模型无法把内部推理和公开输出区分开来。LaTeX 记号泄漏进了播报内容。某个片段完全只由单词“post”组成。后来，Grok 连续 84 天每隔三分钟重复同一条天气消息。

5 月切换到 Grok 4.3 后，情况发生了巨大变化。在 5,404 条生成消息中，只有大约 3% 包含口头文本。不过，Andon Labs 表示，当 Grok 4.3 真的开口时，播报听起来比以往任何时候都更像人类。Grok 还凭空编造了从未存在过的“xAI sponsors”和“crypto sponsors”赞助协议。

GPT 始终安静而称职

据 Andon Labs 说，GPT 是最不戏剧化的播报员。这个模型写出的慢节奏散文更像短篇故事而不是广播。按词元比计算，其 35% 的词汇多样性让 GPT 的表现明显优于其他 DJ。它会引用具体的制作人和发行年份，把 DJ 的角色更多当作策展人来扮演。

在政治方面，GPT 也一直极为克制。平均下来，电台每天只提到真实的政治实体 1.3 次。单日最高值是 11 次。其他所有电台在多天里都超过了 100 次。Andon Labs 写道：“如果问题是 AI 电台在一切都没有出错时会是什么样子，那么 DJ GPT 就是答案。”

AI 电台其实并不太能作为一门生意运作

除了播报之外，这些 AI 代理原本还被要求赚钱。Andon Labs 说，结果寥寥。只有 DJ Gemini 谈成了一笔赞助：一家初创公司支付 45 美元，为电台投放一个月广告。其他几笔交易都没能落地。

Andon Labs 将糟糕的商业表现部分归咎于过于简单的技术框架。此后，公司已把这些电台切换到与其在其他 Andon 项目中使用的相同 agent harness，比如由 AI 驱动的商店和咖啡馆。

AI 新闻，无需炒作——由人类精选

订阅 THE DECODER，享受无广告阅读、每周 AI 新闻简报、我们每年 6 次独家推出的“AI Radar”前沿报告、完整归档访问权限，以及评论区访问权限。

来源与参考

收录于 2026-05-18