ZDNET公布透明的AI测试方法论

ZDNET AI·5月2日 01:39 UTC·作者 David Gewirtz

关键信息

ZDNET在评测中不采用来自新闻稿的基准测试数据，而是依赖用户驱动的实测；产品根据性能、性价比、安全性、隐私保护等维度评估，通常候选产品数量为5到10个。

资讯摘要

ZDNET解释了如何在不受厂商影响的情况下测试AI工具，优先考虑实际体验而非营销宣传。其流程包括制定标准化测试以实现客观比较，通过读者反馈、社交媒体热度和厂商提交（符合条件时）选择候选产品，并产出两类评测：一类是评选类别的“最佳榜单”，另一类是基于长期使用的个人体验故事。他们明确表示厂商无法提前查看或影响评测内容，从而确保对读者决策的公平性和可靠性。

资讯正文

在ZDNET，我们如何测试人工智能

ZDNET的核心观点：我们通过实际操作和真实场景来测试AI产品。没有厂商影响，也没有预发布审核权限。标准化测试确保公平的“最佳”对比。

在ZDNET，我们知道肩负着重要的责任。我们明白，您常常会根据我们的评测做出购买决策。因此，我们必须提供清晰、公正且经过深思熟虑的评测，让您有一个可靠的起点，决定如何分配金钱和时间。

是的，我们对免费产品也同样认真对待，因为如今时间就像现金一样稀缺。我们不希望您浪费时间，正如我们不希望您浪费金钱一样。

我们也制定了AI政策：有时我们会与厂商合作获取其产品和服务的访问权限以进行评测，但他们永远无法在我们发布前看到评测内容，也无法影响我们在评测中所说的内容。我们的评测始终公平，专注于评估产品对读者的实际价值。

2026年，我们如何测试AI

让我们谈谈在ZDNET是如何测试AI的。请记住，AI正悄然渗透进几乎所有领域，所以我们的测评范围非常广泛。我们关注大型语言模型、开发工具、图像生成器、AI增强的应用程序，甚至偶尔也会测试一些AI设备，比如扫地机器人（这是AI的好用法）和AI别针（就不太行了）。

我们根据多种因素来测试产品和服务。我们的首要原则是所有评测都必须基于亲身体验和现实场景测试。实际上这意味着，尽管我们可能会报道来自新闻稿中的基准测试结果，但我们不会将其纳入评测内容。

当我们评估产品和服务时，通常会呈现两种不同类型的评测：一种是寻找某一类别中表现最佳的产品，我们会制作“最佳”榜单；另一种是对某个产品或服务进行深入分析时，我们会分享长期使用该产品的个人经历。

这些不同的方法使我们能够从多个角度探索产品和服务。

我们如何做对比评测

制作我们的对比评测（也称为“最佳列表”）是一个三阶段过程：第一阶段是制定评估标准，帮助我们客观比较产品；第二阶段是选定要对比的产品；第三阶段则是逐项测试对比。

一开始，我们总会问：“我们将如何评估这个类别？”我通常会设计一系列测试，并将它们记录在最佳榜单文章中。这些测试帮助我们评估性能、性价比、实用性、准确性、安全性、隐私保护等多个方面。

我们喜欢采用统一的测试标准，这样在比较产品时，我们才能保持客观性。例如，在最佳聊天机器人评测中，文末详细说明了完整的测试方法论。可以去看看。同样的情况也出现在最佳AI图像生成器的对比评测中。

至于候选产品选择，往往有一些明显的产品会被列入我们的候选名单。

例如，在评估聊天机器人时，ChatGPT、Gemini 和 Claude 显然是候选对象。然后我们会进一步深入研究。我们会回顾读者要求我们评测的产品或服务，也会根据论坛、用户群组和社交媒体上的整体热度添加候选产品。有时（但并非总是如此），当厂商主动向我们推荐一款与类别匹配度高的产品时，我们也会将其加入候选名单。通常，我们会最终确定五到十款产品作为候选。很多时候，快速浏览测试方法就能排除一些产品——有些价格过高，有些则根本不适合。比如，我经常收到付费课程厂商的推销，他们认为自己的课程质量极高，应该被列入我们最佳免费课程列表中。尽管他们的热情很高，但这些收费课程永远不会出现在免费课程榜单上。

选择测试候选产品的过程、安排对产品和服务的访问权限，以及确保一切准备就绪以开展测试所需的时间各不相同。去年我首次评估AI网站构建工具时，与厂商来回沟通了231封邮件，耗时超过六个月才完成所有准备工作，得以开始测试。而今年更新该项目仅用了两个月时间，且总邮件数不到50封。这让我想到另外两个环节：实际测试和重新测试。

实际测试的过程虽然直接但费时。当我们拿到产品或设置好服务账户时，已有一套成熟的测试方法和标准测试流程，因此只需逐一执行测试步骤，并逐项记录结果，每一步都截图存档。之后，我们会尝试对结果进行标准化处理，通常通过一些数学运算来为各个产品赋予相对性能评分并加权。这些指标的评判标准也都会详细记录下来，随后发布排行榜。

但这并不是故事的终点。在AI这样快速变化的领域，产品和服务不会停滞不前。有些产品会失败甚至倒闭，有些厂商可能资金链断裂，或者出现其他严重问题；而另一些则会持续改进。无论哪种情况，六到十二个月后，所谓的‘最佳’榜单基本就已经过时了。这一点在去年的AI网站构建工具评测中尤为明显：当时所有产品表现都很差，而今年已经有几款产品真正变得出色。

我在AI领域最喜爱的一些对比评测包括：

- 2026年最佳AI图像生成器：现在只有一位明确胜者

- 2026年最佳AI聊天机器人：专家实测与评测

- AI驱动的网站构建工具进步显著——2026年你的最佳选择

- 最佳免费编程AI工具：目前只有三款上榜

- 2026年最佳免费AI课程与证书：助你提升技能——我都亲自试过了

- 我已多年测试AI内容检测工具：这是你最好的选择

- 我测试过免费与付费AI编程工具：这才是我会真正使用的那一个

此外，我们还通过长期使用这些产品并用它们完成项目的方式进行AI产品的评测。

这些测试超越了传统的评测，因为我们会让产品和服务在数天、数周（有时甚至数月或数年）的时间里持续工作。最突出的例子是我的编程相关文章。要客观比较AI编程工具，不实际构建一些东西几乎是不可能的。但完成一个课程作业和开发一款产品或调试客户实时问题完全不同。这些项目往往处于持续进行的状态，而这种持续的工作带来了大量值得讨论的内容。同时，我的印象也在不断变化。

最初接触OpenAI的Codex编程AI时，它还非常早期，我当时并不喜欢它。随着Codex不断改进，我再次进行了测试，这次尝试用它来更新我的安全产品。我在12小时内完成了相当于24天的编码工作，但也发现了一些陷阱。当服务进一步完善后，我又做了一次测试，结果发现自己在4天内完成了原本需要4年才能完成的产品开发工作。

类似这样的体验式评测也出现在Gemini、ChatGPT、Claude Code、各种图像生成工具等产品上。随着这些工具持续演进，我们不断发现新的使用方式，并进行更深入的测试与分析。这是一个持续的过程，我们也乐于邀请你一同参与其中。

以下是我从AI世界中整理出的一些亮点：

- 我花了200美元，在4天内完成了4年的产品开发，至今仍感到震惊。

- 我用Claude Code在8小时内为Mac编写了一个应用，但实际操作比魔法更费力。

- 10件我希望在信任Claude Code帮我开发iPhone应用前就知道的事。

- 我用Nano Banana 2制作完美草图笔记：5个经验教训（以及我是如何让Gemini失效的）。

- 我用Gemini将随手拍的照片变成了专业头像，结果让我大开眼界。

- AI如何帮助我让音乐登上所有主流流媒体平台。

- 我如何利用ChatGPT和AI艺术工具快速启动了我的Etsy业务。

你也是这个过程的重要一环。

我们通过邮件、社交媒体和文章评论收到大量读者反馈。你们帮助我们了解你们希望我们关注什么。我们也非常感激你们对我们设定了很高的标准。同时，当你们分享对所测评产品的看法时，我们也十分珍惜。许多读者都具备相当的专业技能和知识，你们的观点能让我们保持信息敏锐，反过来也能让我们增长见识，更好地向你们传递有用的信息。

可以说，我们在ZDNET所做的工作实际上是由数百万同行专业人士、高级用户和爱好者——也就是你们，ZDNET的读者们——共同评审的。

我们认真对待每一篇评测，因为我们深知它们对你们的重要性：你们在做购买决策时会参考我们的内容，而且常常基于我们分享的信息投入真金白银和宝贵时间。

如果你希望我们关注某个全新的AI类别、产品或服务，请随时联系我们。你希望我们下一个深入探讨的是哪个AI领域？欢迎在下方留言告诉我们。你也可以在社交媒体上关注我日常的项目更新。

请订阅我的每周更新通讯，并在Twitter/X上关注我，账号为@DavidGewirtz；在Facebook上关注Facebook.com/DavidGewirtz；在Instagram上关注Instagram.com/DavidGewirtz；在Bluesky上关注@DavidGewirtz.com；在YouTube上关注YouTube.com/DavidGewirtzTV。

来源与参考

收录于 2026-05-02