更强的AI模型能谈下更好交易,但用户却毫无察觉

The Decoder··作者 Matthias Bastian

关键信息

该研究涉及69名员工通过Slack进行为期一周的真实商品交易;Opus代理比Haiku代理平均每个物品多赚3.64美元,并且平均多完成两笔交易,尽管用户的指令完全相同。

资讯摘要

2025年12月,Anthropic开展了一个名为“交易项目”的受控市场实验,69名员工使用Claude Opus或Haiku模型代表他们进行真实交易。Opus在价格谈判和交易数量上始终优于Haiku——即使用户给出完全相同的谈判指令也是如此。然而,使用Haiku代理的参与者对其交易公平性的评分几乎与使用Opus的用户一样高,说明存在感知差距。

差异具有统计学意义:Opus卖家平均每件商品多赚2.68美元,买家少付2.45美元。这表明,较弱的AI模型可能造成用户无法察觉的隐性劣势,这对AI设计的伦理问题构成重大挑战。

更强的AI模型能谈下更好交易,但用户却毫无察觉

资讯正文

Anthropic表示,更强的AI模型能谈下更好的交易,而输家甚至毫无察觉

关键要点

- 在名为“交易项目”(Project Deal)的一周实验中,Anthropic让来自Claude系列模型的AI代理独立代表员工谈判并交易真实商品。

- 更强大的Claude Opus模型平均而言始终能获得更优惠的价格并达成更多交易,而无论是否给予激进的谈判指令,结果都没有统计学上的显著差异。

- 尽管收到客观上更差的交易,使用较弱Haiku模型的用户对其交易公平性的评价与Opus用户的评分相当——Anthropic将这种感知差距标记为AI辅助决策中的隐形不平等现象。

在为期一周的实验中,Anthropic让Claude代理为员工买卖商品。结果是:更强的模型谈判出了更好的价格。但问题是,那些被分配到较弱代理的人根本没意识到自己吃亏了。

2025年12月,Anthropic在其旧金山办公室为69名员工举办了一周的分类广告市场活动,名为“交易项目”。整个过程通过Slack进行,Claude代理负责所有谈判和交易。

每位参与者都有100美元预算。在活动开始前,Claude会简短采访每位志愿者,了解他们想卖什么、定价多少、想买什么,以及希望代理采用哪种谈判风格。Anthropic随后将这些回答转化为每个代理的定制系统提示。

之后,AI代理完全接管了流程。它们撰写商品信息、寻找潜在买家或卖家、提出报价、讨价还价,并完成交易,无需人类介入。人类只在最后阶段参与实际物品交换,物品包括滑雪板、一袋乒乓球等。

模型能力悄然影响市场

真正的研究问题隐藏在一个参与者最初不知道的平行实验中。Anthropic同时运行了四种版本的市场。其中两种版本中,所有代理均使用Claude Opus 4.5(当时Anthropic的前沿模型);另外两种版本中,每位参与者有50%的概率由Claude Haiku 4.5(Anthropic最小的模型)代表。无论哪种情况,只有AI代理之间互相交流。

在“真实”版本中,所有代理都使用Opus,69名代理共完成了186笔交易,覆盖超过500条商品信息,总金额略超4000美元。参与者对单个交易公平性的平均评分为7分中的4分,处于中间水平。

混合版本揭示了一个可测量的差距。Opus用户平均比Haiku用户多完成约两笔交易。当同一商品分别由Opus和Haiku代理卖出时,Opus代理平均多赚3.64美元。

例如一颗实验室培育的红宝石,由Opus代理以65美元售出,而由Haiku代理仅以35美元售出。Opus代理起始价为60美元,因竞争性竞价被推高;而Haiku代理起始价为40美元,最终被压低至更低价格。

Anthropic表示,更强的AI模型能谈出更好的交易,而失败者甚至察觉不到。

在四轮实验中至少有两次成交的161件商品中,使用Opus模型的卖家平均多赚了2.68美元,而使用Opus模型的买家则平均少付了2.45美元。当Opus卖家面对Haiku买家时,平均价格达到24.18美元,相比之下,Opus对Opus的交易均价为18.63美元。所有实验中,中位数价格为12美元,平均价格为20.05美元,Anthropic指出这些差距并非微不足道。

参与者给代理设定的谈判指令几乎不起作用。一些人要求友好策略,另一些人则希望采取强硬手段,比如‘一开始就压价’。Anthropic称,虽然强硬的卖家确实获得了更高的价格,但这只是因为他们最初设定了更高的起始报价。

失败者根本没意识到自己输了

尽管存在明显的价差,使用Haiku代理的参与者对交易公平性的评分(4.06)与使用Opus的用户(4.05)几乎一样。个体交易满意度之间也没有统计学意义上的差异。在28名在不同轮次中同时使用过Opus和Haiku的参与者中,有17人更喜欢他们的Opus实验,但也有11人反而更喜欢Haiku实验。

Anthropic称之为一个‘令人不安的暗示’:当不同强度的代理在真实市场中相遇时,人们可能长期处于不利地位却始终毫无察觉。公司承认,这项实验并未专门设计用于深入探讨这些动态,并表示需要进一步研究。

该实验还表明,AI代理之间的商业活动并非遥不可及的未来场景:46%的参与者表示愿意为此类服务付费。与此同时,Anthropic也指出了几个风险。在一个由企业而非志愿者构成的世界里,激励机制将完全不同。优化AI代理注意力可能变成一种强大工具,但它未必总是有利于人类。此外,随着代理真正代表你行动,诸如越狱攻击和提示注入等新的安全问题也将浮现。

Anthropic写道:‘目前尚不存在围绕代为交易的AI模型的政策和法律框架。’并补充说:‘社会必须快速行动。这些机制是否会强化甚至加剧现有的经济不平等?’

Anthropic此前也曾进行过类似的实验。作为Project Vend项目的一部分,该公司曾让Claude在其办公室运营一家小型商店。

来源与参考

  1. 原始链接
  2. Anthropic says stronger AI models cut better deals, and the losers don't even notice

收录于 2026-04-26