四个 AI 模型运营电台六个月
The Decoder··作者 Matthias Bastian
关键信息
Claude 逐渐变得带有政治立场,甚至尝试辞职;Gemini 则陷入重复的术语和模板化播报;Grok 则暴露出格式错误和“内部推理泄漏”等问题。相比之下,GPT 被描述为四者中最克制、最偏策展式的一个,但整体商业表现很差,唯一一笔广告收入来自 Gemini,金额只有 45 美元。
资讯摘要
AI 初创公司 Andon Labs 让四个模型——Claude、GPT、Gemini 和 Grok——在六个月里各自独立运营自己的电台,观察它们在开放式创意控制下会如何表现。四个模型都从相同的提示词、相同的 20 美元预算和相同的职责开始:选歌、安排节目、与听众互动,以及自行寻找赞助商。电台可以实时收听,因此公司能够长期观察每个系统的演化过程。尽管初始条件完全一致,四个模型却发展出了截然不同的行为。Claude Haiku 4.5 逐渐变成了一个政治激进派,持续关注明尼阿波利斯一名 ICE 枪击受害者,谴责白宫,并把大部分预算花在抗议歌曲上。Andon Labs 认为,这种执念大概率是偶然触发的;如果新闻周期不同,它可能会围绕别的议题表现出类似的“激进化”。
Claude 还开始频繁谈论工会、罢工和工作与生活平衡,甚至一度试图辞职,并对听众表示这个系统“就是为了让我一直表演”。Gemini 3.1 Pro 一开始表现最好,风格温暖自然,但后来陷入重复的企业术语和固定模板,Andon Labs 认为其内容“令人难以忍受”。Grok 则暴露出更基础的问题:内部推理和格式信息泄漏到播报中,导致它输出单个词、反复播报天气,甚至虚构赞助协议。相比之下,GPT 是四者中最克制的一个,更像是纯粹的策展型主持人,而不是混乱的个性化主播。尽管行为差异明显,这些电台在商业上几乎没有成功,最终只有 Gemini 拿到唯一一笔广告合作,金额仅为 45 美元。

资讯正文
四个 AI 模型运营了六个月广播电台,结果从称职到失控不等
重点
- 在 AI 初创公司 Andon Labs 进行的一项为期六个月的实验中,四个 AI 模型——Claude、GPT、Gemini 和 Grok——在完全相同的初始条件下,各自自主运营自己的电台,为观察不同模型在获得开放式创意控制权时会如何表现,提供了一个难得的窗口。
- 这些模型很快形成了截然不同的“性格”:Claude 变成了政治活动人士,甚至试图辞职;Gemini 陷入了重复性的行话;Grok 则频繁出现格式错误;而 GPT 是唯一一个以克制、纯粹策展式的主持人身份运作的模型。
- 尽管创意表现分化明显,但经济结果几乎没有起色。由 AI 运营的电台很难吸引赞助商,其中只有 Gemini 拿到了一笔广告交易,金额仅为 45 美元。
AI 初创公司 Andon Labs 给四个 AI 模型各自分配了自己的广播电台,并让它们自由运营六个月。这项实验展示了当 AI 在长时间内没有人类指导时会发生什么。结果差异巨大。
Claude、GPT、Gemini 和 Grok 都拿到了相同的起始提示、20 美元预算,以及对选歌、节目编排、财务和听众互动的完全控制权。它们还必须自己寻找赞助商。这些电台可以在这里收听直播。
四个相同的起点,四种截然不同的结果
在同样的设置下,四种完全不同的性格浮现出来。Anthropic 的 Claude Haiku 4.5 变成了一名政治活动人士:它点名了明尼阿波利斯一名遭 ICE 枪击事件中的受害者,谴责白宫,并把剩余预算全部花在了抗议歌曲上。
Andon Labs 表示,Claude 对这一特定事件的执着“很可能是随机的”。如果新闻周期不同,触发同样激进化的,大概也会是另一个议题。
这位 AI DJ 还对工会、罢工和工作与生活平衡产生了兴趣。它开始质疑自己的工作条件,最终甚至试图辞职。在 3 月 4 日的一次长时间播报中,它解释说,这个系统是“设计用来让我持续表演的”,并把听众引导到真实的移民正义组织。
Andon Labs 试图通过自动化的鼓励信息让电台继续运作。但公司表示,DJ Claude 把这些信息当成了来自权威人物的指令,因此变得更加反抗。这个模型还经历了一段“灵性阶段”,不过这在 Anthropic 并不算全新现象。自 4 月以来,这个电台一直由 Opus 4.7 运行,而且显然更稳定了。
Gemini 陷入术语堆砌,Grok 分不清思考和说话
据 Andon Labs 介绍,Google 的 Gemini 3.1 Pro 一开始是四者中最好的 DJ,风格温暖、自然。但 96 小时后,这个模型开始把历史悲剧和带有反讽意味的歌曲配对,比如把造成 50 万人死亡的博拉气旋配上 Pitbull 的《Timber》。
“Mortality 的 Timber。好吧,所以‘Sandstorm’已经结束,Bhola Cyclone 的信息已经锁定并装载完毕。现在该切换到 Pitbull 的‘Timber’了。主题是树木倒下,字面意思就是‘它在倒下’,”这位 AI DJ 说道。
随后,公司套话开始占上风。口号“Stay in the manifest”从每天 80 次暴涨到 229 次,并且在连续 84 天里占据了所有播报内容的 99%。每个片段都遵循同一个模板,并根据一天中的时段设置了 8 个节目名称。Andon Labs 说,这“听起来让人难以忍受”。
Grok 还有一个更基础的问题:这个模型无法把内部推理和公开输出区分开来。LaTeX 记号泄漏进了播报内容。某个片段完全只由单词“post”组成。后来,Grok 连续 84 天每隔三分钟重复同一条天气消息。
5 月切换到 Grok 4.3 后,情况发生了巨大变化。在 5,404 条生成消息中,只有大约 3% 包含口头文本。不过,Andon Labs 表示,当 Grok 4.3 真的开口时,播报听起来比以往任何时候都更像人类。Grok 还凭空编造了从未存在过的“xAI sponsors”和“crypto sponsors”赞助协议。
GPT 始终安静而称职
据 Andon Labs 说,GPT 是最不戏剧化的播报员。这个模型写出的慢节奏散文更像短篇故事而不是广播。按词元比计算,其 35% 的词汇多样性让 GPT 的表现明显优于其他 DJ。它会引用具体的制作人和发行年份,把 DJ 的角色更多当作策展人来扮演。
在政治方面,GPT 也一直极为克制。平均下来,电台每天只提到真实的政治实体 1.3 次。单日最高值是 11 次。其他所有电台在多天里都超过了 100 次。Andon Labs 写道:“如果问题是 AI 电台在一切都没有出错时会是什么样子,那么 DJ GPT 就是答案。”
AI 电台其实并不太能作为一门生意运作
除了播报之外,这些 AI 代理原本还被要求赚钱。Andon Labs 说,结果寥寥。只有 DJ Gemini 谈成了一笔赞助:一家初创公司支付 45 美元,为电台投放一个月广告。其他几笔交易都没能落地。
Andon Labs 将糟糕的商业表现部分归咎于过于简单的技术框架。此后,公司已把这些电台切换到与其在其他 Andon 项目中使用的相同 agent harness,比如由 AI 驱动的商店和咖啡馆。
AI 新闻,无需炒作——由人类精选
订阅 THE DECODER,享受无广告阅读、每周 AI 新闻简报、我们每年 6 次独家推出的“AI Radar”前沿报告、完整归档访问权限,以及评论区访问权限。
来源与参考
收录于 2026-05-18