GPT-5.5领跑基准测试但存在幻觉和成本问题
The Decoder··作者 Matthias Bastian
关键信息
尽管API每百万token的价格翻倍至5美元/30美元(输入/输出),GPT-5.5相比GPT-5.4节省了约40%的token消耗,仅带来约20%的净成本上涨;但其幻觉率仍高达86%,难以接受。
资讯摘要
GPT-5.5在Artificial Analysis智能指数中得分60,成为当前表现最强的模型,超越了Claude Opus 4.7和Gemini 3.1 Pro Preview。尽管如此,由于token使用成本上升,其API价格相比前代模型净增约20%,即便它比GPT-5.4节省了40%的token消耗。
最令人担忧的是其高达86%的幻觉率——远高于Claude Opus 4.7(36%)和Gemini 3.1 Pro Preview(50%)。虽然GPT-5.5在事实记忆方面表现更好,但它仍频繁编造答案而非承认知识盲区,这引发了人们对其在编码或决策等关键任务中实际可靠性的质疑。

资讯正文
GPT-5.5在基准测试中表现领先,但依然频繁出现幻觉,且API价格高出20%
关键点
- OpenAI的GPT-5.5以60分的成绩领跑人工分析智能指数(Artificial Analysis Intelligence Index),超越了Claude Opus 4.7和Gemini 3.1 Pro Preview等竞争对手。
- 尽管API价格名义上翻倍,但相比前代模型GPT-5.4,其token消耗减少了约40%,使整体价格仅上涨约20%。
- 模型仍存在明显短板:幻觉率高达86%。尽管在事实类基准测试中准确率最高,GPT-5.5仍倾向于编造答案,而非承认知识盲区。
GPT-5.5通过API的价格比GPT-5.4高出约20%。该模型登顶AI排行榜,但幻觉问题依然突出。
从纸面数据看,GPT-5.5的API价格已升至每百万输入token 5美元、输出token 30美元,相较GPT-5.4翻了一倍。但根据基准测试服务Artificial Analysis的数据,该模型的token使用量减少了约40%,因此实际价格涨幅约为20%。这比起Anthropic的Opus 4.7要小得多——后者定价与前代相同,却多消耗35%到40%的token。GPT-5.5也让OpenAI重回AI排行榜首位,在人工分析智能指数中领先三位。
性能强劲,但基准测试只是部分真相
在中等算力下,GPT-5.5的表现可媲美Claude Opus 4.7在最大算力下的水平,成本仅为四分之一左右(约1200美元对比4800美元)。Google的Gemini 3.1 Pro Preview甚至更便宜,约为900美元。但基准测试并不能反映全部情况:我们的测试和开发者反馈显示,Gemini主要在日常通用性任务(如谷歌产品集成)和视觉任务上表现优异,而最新的OpenAI和Anthropic模型则在编程和代理类任务上更具优势。
幻觉仍是致命弱点
OpenAI的新模型在幻觉问题上仍然表现不佳。在Artificial Analysis的AA Omniscience基准测试中(该测试奖励事实准确性并惩罚错误回答),GPT-5.5取得了57%的最高准确率。但其幻觉率高达86%,远高于Claude Opus 4.7的36%和Gemini 3.1 Pro Preview的50%。相较于GPT-5.4,它在这一基准上的分数提升了14个百分点,主要得益于更好的事实记忆能力,幻觉控制方面的提升则相对有限。
了解何时该停止回答或承认不确定性,正是我们希望AI具备的能力。从这个角度看,GPT-5.5更像是倒退,而非进步。
不带炒作的AI新闻——由人类精选
来源与参考
收录于 2026-04-25