ZDNET公布透明的AI测试方法论
ZDNET AI··作者 David Gewirtz
关键信息
ZDNET在评测中不采用来自新闻稿的基准测试数据,而是依赖用户驱动的实测;产品根据性能、性价比、安全性、隐私保护等维度评估,通常候选产品数量为5到10个。
资讯摘要
ZDNET解释了如何在不受厂商影响的情况下测试AI工具,优先考虑实际体验而非营销宣传。其流程包括制定标准化测试以实现客观比较,通过读者反馈、社交媒体热度和厂商提交(符合条件时)选择候选产品,并产出两类评测:一类是评选类别的“最佳榜单”,另一类是基于长期使用的个人体验故事。他们明确表示厂商无法提前查看或影响评测内容,从而确保对读者决策的公平性和可靠性。

资讯正文
在ZDNET,我们如何测试人工智能
ZDNET的核心观点:我们通过实际操作和真实场景来测试AI产品。没有厂商影响,也没有预发布审核权限。标准化测试确保公平的“最佳”对比。
在ZDNET,我们知道肩负着重要的责任。我们明白,您常常会根据我们的评测做出购买决策。因此,我们必须提供清晰、公正且经过深思熟虑的评测,让您有一个可靠的起点,决定如何分配金钱和时间。
是的,我们对免费产品也同样认真对待,因为如今时间就像现金一样稀缺。我们不希望您浪费时间,正如我们不希望您浪费金钱一样。
我们也制定了AI政策:有时我们会与厂商合作获取其产品和服务的访问权限以进行评测,但他们永远无法在我们发布前看到评测内容,也无法影响我们在评测中所说的内容。我们的评测始终公平,专注于评估产品对读者的实际价值。
2026年,我们如何测试AI
让我们谈谈在ZDNET是如何测试AI的。请记住,AI正悄然渗透进几乎所有领域,所以我们的测评范围非常广泛。我们关注大型语言模型、开发工具、图像生成器、AI增强的应用程序,甚至偶尔也会测试一些AI设备,比如扫地机器人(这是AI的好用法)和AI别针(就不太行了)。
我们根据多种因素来测试产品和服务。我们的首要原则是所有评测都必须基于亲身体验和现实场景测试。实际上这意味着,尽管我们可能会报道来自新闻稿中的基准测试结果,但我们不会将其纳入评测内容。
当我们评估产品和服务时,通常会呈现两种不同类型的评测:一种是寻找某一类别中表现最佳的产品,我们会制作“最佳”榜单;另一种是对某个产品或服务进行深入分析时,我们会分享长期使用该产品的个人经历。
这些不同的方法使我们能够从多个角度探索产品和服务。
我们如何做对比评测
制作我们的对比评测(也称为“最佳列表”)是一个三阶段过程:第一阶段是制定评估标准,帮助我们客观比较产品;第二阶段是选定要对比的产品;第三阶段则是逐项测试对比。
一开始,我们总会问:“我们将如何评估这个类别?”我通常会设计一系列测试,并将它们记录在最佳榜单文章中。这些测试帮助我们评估性能、性价比、实用性、准确性、安全性、隐私保护等多个方面。
我们喜欢采用统一的测试标准,这样在比较产品时,我们才能保持客观性。例如,在最佳聊天机器人评测中,文末详细说明了完整的测试方法论。可以去看看。同样的情况也出现在最佳AI图像生成器的对比评测中。
至于候选产品选择,往往有一些明显的产品会被列入我们的候选名单。
例如,在评估聊天机器人时,ChatGPT、Gemini 和 Claude 显然是候选对象。然后我们会进一步深入研究。我们会回顾读者要求我们评测的产品或服务,也会根据论坛、用户群组和社交媒体上的整体热度添加候选产品。有时(但并非总是如此),当厂商主动向我们推荐一款与类别匹配度高的产品时,我们也会将其加入候选名单。通常,我们会最终确定五到十款产品作为候选。很多时候,快速浏览测试方法就能排除一些产品——有些价格过高,有些则根本不适合。比如,我经常收到付费课程厂商的推销,他们认为自己的课程质量极高,应该被列入我们最佳免费课程列表中。尽管他们的热情很高,但这些收费课程永远不会出现在免费课程榜单上。
选择测试候选产品的过程、安排对产品和服务的访问权限,以及确保一切准备就绪以开展测试所需的时间各不相同。去年我首次评估AI网站构建工具时,与厂商来回沟通了231封邮件,耗时超过六个月才完成所有准备工作,得以开始测试。而今年更新该项目仅用了两个月时间,且总邮件数不到50封。这让我想到另外两个环节:实际测试和重新测试。
实际测试的过程虽然直接但费时。当我们拿到产品或设置好服务账户时,已有一套成熟的测试方法和标准测试流程,因此只需逐一执行测试步骤,并逐项记录结果,每一步都截图存档。之后,我们会尝试对结果进行标准化处理,通常通过一些数学运算来为各个产品赋予相对性能评分并加权。这些指标的评判标准也都会详细记录下来,随后发布排行榜。
但这并不是故事的终点。在AI这样快速变化的领域,产品和服务不会停滞不前。有些产品会失败甚至倒闭,有些厂商可能资金链断裂,或者出现其他严重问题;而另一些则会持续改进。无论哪种情况,六到十二个月后,所谓的‘最佳’榜单基本就已经过时了。这一点在去年的AI网站构建工具评测中尤为明显:当时所有产品表现都很差,而今年已经有几款产品真正变得出色。
我在AI领域最喜爱的一些对比评测包括:
- 2026年最佳AI图像生成器:现在只有一位明确胜者
- 2026年最佳AI聊天机器人:专家实测与评测
- AI驱动的网站构建工具进步显著——2026年你的最佳选择
- 最佳免费编程AI工具:目前只有三款上榜
- 2026年最佳免费AI课程与证书:助你提升技能——我都亲自试过了
- 我已多年测试AI内容检测工具:这是你最好的选择
- 我测试过免费与付费AI编程工具:这才是我会真正使用的那一个
此外,我们还通过长期使用这些产品并用它们完成项目的方式进行AI产品的评测。
这些测试超越了传统的评测,因为我们会让产品和服务在数天、数周(有时甚至数月或数年)的时间里持续工作。最突出的例子是我的编程相关文章。要客观比较AI编程工具,不实际构建一些东西几乎是不可能的。但完成一个课程作业和开发一款产品或调试客户实时问题完全不同。这些项目往往处于持续进行的状态,而这种持续的工作带来了大量值得讨论的内容。同时,我的印象也在不断变化。
最初接触OpenAI的Codex编程AI时,它还非常早期,我当时并不喜欢它。随着Codex不断改进,我再次进行了测试,这次尝试用它来更新我的安全产品。我在12小时内完成了相当于24天的编码工作,但也发现了一些陷阱。当服务进一步完善后,我又做了一次测试,结果发现自己在4天内完成了原本需要4年才能完成的产品开发工作。
类似这样的体验式评测也出现在Gemini、ChatGPT、Claude Code、各种图像生成工具等产品上。随着这些工具持续演进,我们不断发现新的使用方式,并进行更深入的测试与分析。这是一个持续的过程,我们也乐于邀请你一同参与其中。
以下是我从AI世界中整理出的一些亮点:
- 我花了200美元,在4天内完成了4年的产品开发,至今仍感到震惊。
- 我用Claude Code在8小时内为Mac编写了一个应用,但实际操作比魔法更费力。
- 10件我希望在信任Claude Code帮我开发iPhone应用前就知道的事。
- 我用Nano Banana 2制作完美草图笔记:5个经验教训(以及我是如何让Gemini失效的)。
- 我用Gemini将随手拍的照片变成了专业头像,结果让我大开眼界。
- AI如何帮助我让音乐登上所有主流流媒体平台。
- 我如何利用ChatGPT和AI艺术工具快速启动了我的Etsy业务。
你也是这个过程的重要一环。
我们通过邮件、社交媒体和文章评论收到大量读者反馈。你们帮助我们了解你们希望我们关注什么。我们也非常感激你们对我们设定了很高的标准。同时,当你们分享对所测评产品的看法时,我们也十分珍惜。许多读者都具备相当的专业技能和知识,你们的观点能让我们保持信息敏锐,反过来也能让我们增长见识,更好地向你们传递有用的信息。
可以说,我们在ZDNET所做的工作实际上是由数百万同行专业人士、高级用户和爱好者——也就是你们,ZDNET的读者们——共同评审的。
我们认真对待每一篇评测,因为我们深知它们对你们的重要性:你们在做购买决策时会参考我们的内容,而且常常基于我们分享的信息投入真金白银和宝贵时间。
如果你希望我们关注某个全新的AI类别、产品或服务,请随时联系我们。你希望我们下一个深入探讨的是哪个AI领域?欢迎在下方留言告诉我们。你也可以在社交媒体上关注我日常的项目更新。
请订阅我的每周更新通讯,并在Twitter/X上关注我,账号为@DavidGewirtz;在Facebook上关注Facebook.com/DavidGewirtz;在Instagram上关注Instagram.com/DavidGewirtz;在Bluesky上关注@DavidGewirtz.com;在YouTube上关注YouTube.com/DavidGewirtzTV。
来源与参考
收录于 2026-05-02