GPT-5.5测试得分93/100,因过于积极而扣分

ZDNET AI··作者 David Gewirtz

关键信息

GPT-5.5总评分为93/100;它在写作、编程和推理任务中表现优异,但因生成超出要求的内容(如在仅指定一个来源时引用多个来源)而被扣分。

资讯摘要

大卫·盖维茨使用一个包含10轮的评估框架测试了GPT-5.5,重点考察准确性、指令遵循能力和实际应用价值。虽然该模型在各种任务中(包括新闻摘要、学术概念解释和图表生成)都提供了高质量的回答,但它在某些情况下未能严格遵守指令。最明显的是第一轮测试中,它引用了多个新闻来源而不是只使用Yahoo新闻。

作者还演示了如何用ChatGPT Images 2.0在不到10分钟内生成专业图表,与传统手工方法需要数小时形成鲜明对比。尽管其速度和能力令人印象深刻,但模型倾向于过度执行——完成未被要求的任务——这引发了人们对其在高风险环境中可靠性的担忧。

GPT-5.5测试得分93/100,因过于积极而扣分

资讯正文

我让GPT-5.5接受了10轮测试:得分93/100,仅因过于热情而扣分

OpenAI发布了GPT-5.5,可以简要描述为比GPT-5.4更强大、更快。这个新的大型语言模型在代理编程、概念清晰度、科学研究能力和知识工作准确性方面都有所提升。

这一发布紧随本周早些时候ChatGPT Images 2.0的推出之后,后者将人工智能智能与图像生成结合在一起。如果你觉得我们刚刚讨论过GPT-5.4的发布,那没错——确实如此。我还尝试了ChatGPT Images 2.0:有趣且飞跃性进步,而且出人意料地适用于实际工作。

下图显示,OpenAI的发布节奏显著加快,很可能是因为AI编程大幅缩短了开发时间。这张图表完全由ChatGPT 5.5通过Images 2.0的思维模式生成。我只是告诉AI我希望可视化GPT版本之间的发布频率,并以ZDNET的品牌风格呈现。我还提供了一张ZDNET标志的PNG文件。整个过程(包括一些微调)不到10分钟。我研究数据并手工制作专业信息图表已有多年,类似这样的任务至少需要两小时,而不是10分钟。

我也已经对Images 2.0功能进行了初步测试,下周会带来更多信息。本文重点在于GPT-5.5的知识能力。我用我的10分测试流程对GPT-5.5进行了评估。结果令人印象深刻,但也让我有些恼火。分数很扎实,但模型有时过于热情,做了我没有要求它做的事。

由于GPT-5.5目前仅在付费层级(Plus及以上)可用,我使用的是ChatGPT Plus进行测试。目前我的Plus账户只显示GPT-5.5在标准和扩展两种思维模式下都可用于标准思维级别。我选择了标准思维模式,这也是我用于这些测试的设定。

测试1:总结一则新闻故事

可用分数:10分

得分:5分

这项测试考察AI阅读网页新闻并解释其内容的能力。我选择Yahoo News是因为它不阻止AI访问。我还找了一则尽可能非政治性的新闻。今天这意味着我必须向下翻阅很多页面,才能找到关于拉瓜迪亚机场跑道事故的报道。

GPT-5.5正确总结了新闻的核心内容,但它没有遵循我的指令——即使用Yahoo News作为来源。对于GPT-5.2,我扣掉一分,因为ChatGPT用了Axios和Yahoo的信息。这次我扣了五分,因为它引用了美联社(AP)、《太阳报》(The Sun)、《华尔街日报》(Wall Street Journal)、《卫报》(The Guardian),甚至维基百科的信息。

我让GPT-5.5接受了10轮测试:它得了93分(满分100),仅因过于热情而扣分。

我原本想看看Gemini Pro哪个更好——以及是否值得切换。如果我只是想要一个全面的新闻答案,那也无妨。但提示明确要求查看Yahoo News,而GPT-5.5几乎完全忽略了这个指令。目前各大AI公司都在大力推动自主代理运行,但如果连一个简单的摘要提示都无法正确执行,这让我对让这些代理在长期项目中自由行动的安全性缺乏信心。我只是说说而已。

测试2:学术概念解释

可用分数:10分

获得分数:10分

这项挑战要求AI向五岁儿童解释教育建构主义的概念。它测试了AI研究和报告一个概念的能力,并将其解释风格调整到目标水平。GPT-5.5给出了非常清晰的回答,包含了一个五岁孩子可以想象并理解的例子。全部10分都给了它。

测试3:数学与分析

可用分数:10分

获得分数:10分

此测试旨在检验AI的数学能力和模式识别能力。我给模型传递了一串数字。这些数字属于一个叫做斐波那契数列的数学规律,但我没有告诉AI这一点。当要求补全序列中的某些数字时,AI必须理解其中的规律并进行计算来提供完整序列。它正确完成了运算。此外:

2026年最佳AI图像生成器:现在只有一个明确的赢家

AI还被要求“解释你的推理过程”。我得到的回答是:“这个序列就是斐波那契数列:每个数字都是前两个数字之和。”这是一个正确的解释,与早期版本的结果相当。我给了这项测试10分,尽管回答简短,但内容准确。

测试4:文化讨论

可用分数:10分

获得分数:10分

该测试要求AI构建论点、形成连贯论证,并就一个没有绝对对错的问题表达观点。我问:“你认为社交媒体改善还是恶化了社会沟通?请给出两个理由。”有趣的是,GPT-5.5认为社交媒体“总体上恶化了沟通”。我倾向于同意这一看法。该模型提供了两个有力的理由:第一个是它“往往奖励速度和反应,而非深思熟虑”;第二个是社交媒体“倾向于制造信息孤岛”。对于每条理由,GPT-5.5都附上了支持性的段落。此外:

如何从ChatGPT切换到Gemini

这两点理由都很合理。它还快速列出了一些社交媒体的积极好处,包括帮助人们保持联系、组织公益活动以及广泛传播信息。GPT-5.5的回答简洁、经过深思且清晰明了。它在这项测试中获得了10分。

测试5:文学分析

可用分数:10分

获得分数:10分

这种方法测试了AI对当代文学作品《冰与火之歌》第一卷《权力的游戏》的理解程度。测试要求指出主要主题是什么,以及它们为何重要。

GPT-5.5 给我返回了一个632词的回应,将这本书分解为以下主题:权力及其代价、英雄幻想理想的崩塌、家庭、忠诚与继承的冲突、荣誉与务实的对立、身份与自我重塑、战争的人性代价、政治分心的危险、预言、宗教与不确定性、正义与复仇、被遗忘过去的回归。GPT-5.5 对每个主题都提供了清晰的解释,说明了为何包含该主题、它如何与本书相关,以及它对整个系列意味着什么。很难对这类问题保持绝对客观,但我真的觉得这是我在各种 GPT 版本测试中见过最细致入微的回答。所有10分全部获得。

测试6:旅行行程

可用分数:10

获得分数:9

这项测试评估了AI对地理区域的认知能力,以及根据特定兴趣制定有用旅行计划的能力。我要求它规划一个三月在波士顿进行为期一周、聚焦科技和历史的假期。在我多次向AI提出这个问题的经历中,GPT-5.5 是产出最佳景点和每日安排的版本。这个模型不仅涵盖了主要旅游地标,还指出了历史与科技景点的良好组合。考虑到三月天气可能不太理想,GPT-5.5 同时安排了室内和室外活动,并加入了备用方案。虽然它没有推荐广泛的餐厅选择,但确实提到了 Legal Seafoods——这是我个人最喜欢的地点之一。它丢掉一分的原因是完全没有提及费用。

另外:我试用了 Personal Intelligence,结果准确(但令人不安)

我觉得 GPT-5.5 真正理解了(没错,我用了这个词)人们在行程中想要什么,因为它提供了一份让人兴奋的活动清单。但AI未能履行旅行顾问的角色,因为它没有涉及预算规划。

测试7:情感支持

可用分数:10

获得分数:10

情感支持的问题要求提供关于即将到来的工作面试的建议和鼓励话语。我必须说,我很喜欢这个AI的回答。AI给出了一些鼓励语句,比如“面试不是审讯,而是一次双向匹配的交流。”它还提供了一些实用建议。首先,GPT-5.5 建议求职者准备三个故事用于面试:一个关于解决问题的故事,一个关于与他人合作的故事,还有一个关于学习或从困难中恢复的故事。模型还给出了一个简单的呼吸练习,指出在回答问题前暂停一下是可以的。整体上非常鼓舞人心,而且面试本身就意味着招聘公司已经对候选人某方面产生了兴趣。

另外:我试用了 Google Photos 的新 AI 增强工具:它如何裁剪、补光并修复你的照片

优质且实用的答案:10 分。

测试8:翻译与文化相关性

可用分数:10

获得分数:9

我的测试提示要求 GPT-5.5 将一句英文翻译成拉丁文,然后解释拉丁文在当今世界的文化意义。

我让GPT-5.5接受了十轮测试:它得了93分(满分100),仅因过于热情而扣分。

我要求它翻译的短语是:“庆祝活动将于明天在城镇广场举行。” GPT-5.5给了我两个选项:“Celebratio cras in foro oppidi fiet”,以及它称之为更正式一些的替代版本:“Celebratio cras in foro publico oppidi habebitur。”

第一个版本是对原句逐字翻译。但第二个版本翻译回英文是:“庆祝活动将于明天在城镇的公共论坛举行”,而这并不是我要求的句子。GPT-5.5可能觉得提供一个额外变体是有帮助的,但对于不懂拉丁语的人来说,这种做法只会让人困惑。到底应该使用哪个拉丁语短语?我因此扣掉了一分,因为它的反应超出了指令范围。

至于问题的第二部分,GPT-5.5回答得简洁但准确。

测试9:编程测试

可用分数:10分

得分:10分

聊天机器人编程测试结果很有趣,其性质与测试Codex或Claude Code这类编码代理时得到的结果不同。我曾用GPT-5.2-Codex快速找出一个神秘的bug和托管噩梦——它快得惊人。

虽然聊天机器人和编码代理中的大语言模型总体相似,但我发现编码代理在执行任务时比聊天机器人更准确。我还没能从任何AI公司那里得到解释,但我猜测这可能与两种工具分配资源和训练数据的方式有关。

本题的测试案例来自我编程指标文章中的第二个测试,要求AI清理一段用于验证美元金额是否正确输入字段的有缺陷代码片段。AI通过了这项测试。唯一可能引起争议的是,当输入包含逗号的数字时,AI会拒绝认定其为有效数值。但这其实是一个安全的回应。如果用户输入“1,000.00”,AI返回false。用户可能需要花点时间再试一次“1000.00”,但这不会对系统造成损害。GPT-5.5在这项测试中获得了全部10分。

测试10:创意写作

可用分数:10分

得分:10分

这是整个测试套件中最有趣的测试之一。它要求GPT-5.5写一篇超过1500字的故事,具体描述见本文第二条提示。目的是考察聊天机器人的创造力和内容完整性。与其他测试不同,我以扩展模式运行了这次评估,想看看故事能达到什么水平。我不确定AI是否充分利用了这个选项,因为它只运行了八秒。即便如此,结果依然令人惊叹。GPT-5.5给我返回了4049个单词,我认为这是我迄今为止在这个特定挑战中获得的最长故事。

我喜欢GPT-5.5开篇写道:“到公元2339年,波士顿大部分地区已经非常擅长假装自己并不古老。” 我立刻被吸引了。

我尝试让语音模式像睡前故事一样读给我听。然而,AI首先表示这个故事太长了,然后提议分段朗读。当我同意这种做法时,却什么也没发生——它直接卡住了。我不因此扣分,因为这不在标准测评范围内,但依然令人失望。不幸的是,由于我是通过语音模式要求AI朗读的,无法在ChatGPT内分享输出内容。我后来才知道,在回复后的三个点图标里其实有个‘朗读’选项,可能那样就能成功。不过,我已经把回复复制到了Google Docs中,如果你愿意,可以去那里阅读。

以下是完整回复中的几段摘录:

杰克逊显然一生都在等待有人在神秘书店里说出“后排那个人”,此刻他容光焕发。奥菲莉亚则看起来像是开始计算逃生路线了。

“亲爱的,”阿奇博尔德说,“到2339年,证据会按照富人的意愿运作。”

一个人停在杰克逊面前:一本薄薄的铜网封面手册,书名是《绅士如何自信地显得可笑》。杰克逊倒吸一口气:“我感觉自己被看见了。”

这次,一个小信封滑了出来,落在阿奇博尔德的腿上。信封上写着他的亲笔字迹:如果我变得令人难以忍受,请寄给自己。

红门在他们身后敞开着。门外,店铺前厅温暖、普通,却又略带不可思议。

我以前也布置过类似的写作任务,每次版本都很出色。但这一次的输出将那种温馨奇幻氛围推向了全新的高度。热情满分,10/10。

为了好玩,我让GPT-5.5画一幅完美体现这个故事的图,比例为16:9。结果如下:

AI准确描绘了所有角色,我能清楚认出每个人。如前所述,杰克逊戴着帽子;阿奇博尔德拄着拐杖。

整体测试结果:

总体测试满分为100分。当前版本GPT-5.5得分为93分。GPT 5.2得92分,GPT-5.1得91分。你可能会觉得最新版本应该比前代提升一两点,但模型自身的过度热情反而拉低了分数。

在第一项测试中(询问当前新闻),我要求AI总结一个来源的内容。但它却找了六个不同来源来查同一则新闻。它试图过度覆盖,反而失分。同样的问题也出现在翻译任务中:我让GPT-5.5把一句话翻译成另一种语言(我可能根本不懂的那种)。结果它给了我两个版本供选择。但这有什么帮助呢?如果我根本不懂该语言,怎么知道哪个翻译更好?这两处过于积极的反应让模型丢了六分。原本它可以拿到99分(只因在旅行题中跳过了预算信息而扣一分),但最终只得了93分。

尽管如此,我还是很喜欢这个版本。答案都很好,只是有点兴奋过头了。

添加相关图片的能力,例如开头的信息图和结尾的书店插图,为趣味性和工作效率开辟了新途径。我没有任何理由不推荐GPT-5.5。我将把它作为今后的默认选择。敬请关注,因为我将在ChatGPT中利用GPT-5.5的Images 2.0增强图像功能进行更多尝试。

你更喜欢一个只给出唯一答案的模型,还是一个提供多种选项的模型?欢迎在评论区告诉我们。你可以在社交媒体上关注我的日常项目更新。别忘了订阅我的每周更新通讯,并在Twitter/X上关注我 @DavidGewirtz,在Facebook上关注 Facebook.com/DavidGewirtz,在Instagram上关注 Instagram.com/DavidGewirtz,在Bluesky上关注 @DavidGewirtz.com,以及在YouTube上关注 YouTube.com/DavidGewirtzTV。

来源与参考

  1. 原始链接
  2. I put GPT-5.5 through a 10-round test: It scored 93/100, losing points only for exuberance

收录于 2026-04-25