微软 ASSERT 简化 AI 行为测试

TechCrunch AI·6月3日 03:02 UTC·作者 Ram Iyer

关键信息

ASSERT 可以把自然语言规格转成可接受和不可接受的行为集合，生成测试用例，并记录中间动作和工具调用，方便开发者排查失败原因。微软还表示，开发者可以提供系统上下文、工具和约束条件，以缩小评估范围并提高针对性。

资讯摘要

微软发布了 ASSERT，全称是 Adaptive Spec-driven Scoring for Evaluation and Regression Testing，这是一个用于评估应用特定 AI 行为的开源框架。微软表示，这个工具会利用 AI，把高层次的自然语言描述——例如目标、政策和预期行为——转换成结构化测试。随后，ASSERT 会生成场景和测试用例，并在目标系统上执行这些测试。它还会记录系统的行为路径，包括中间动作和工具调用，这样开发者就能更容易定位失败发生在什么地方。开发者也可以补充系统上下文、工具和约束条件，让评估更贴近具体产品或服务。

微软给出的例子是，一个文档研究 AI 智能体可以被测试，确保它不会向公司外部的人发送邮件，只把机密信息提供给 C 级高管，并且在考虑先前上下文的前提下给出简洁摘要。微软认为，这类能力弥补了更通用的基准测试无法覆盖的空白，因为很多 AI 系统的行为会受到应用场景、政策和工具的强烈影响。微软负责 Responsible AI 的首席产品官 Sarah Bird 说，评估对于做出正确决策至关重要，因为如果不了解 AI 系统的行为，就很难判断它是否达到了组织要求。她还表示，真正可信的系统需要检查更多应用特定维度，而 ASSERT 可以用于开发阶段、部署之后，以及持续监控。

资讯正文

AI 研究人员和实验室在评估 AI 模型方面已经取得了长足进展，评估范围涵盖从安全性和合规性到谄媚性和对齐性等各个方面。但如今，企业和开发者似乎面临一个新的、具体的需求：确保他们的 AI 系统在其特定产品或服务中按照预期运行。

为了简化这一测试流程，微软周二发布了 ASSERT，全称为 Adaptive Spec-driven Scoring for Evaluation and Regression Testing。

微软表示，这一开源框架通过使用 AI，将高层次的自然语言目标、策略或预期行为描述转化为可深入审查的、带评分的完整测试，从而让评估应用特定的 AI 行为变得更容易。

ASSERT 会把对 AI 模型预期行为和策略的自然语言描述，转化为一组结构化的可接受与不可接受行为，生成问题场景和测试用例，将它们运行到目标系统上，并对结果进行评分。它还可以记录 AI 系统所走过的路径，包括中间动作和工具调用，以便开发者检查故障发生在什么地方。

如果开发者愿意进一步定制评估覆盖的内容，还可以提供系统上下文、工具和约束条件。

例如，开发者可以指定，一个文档研究 AI 代理不应向公司外部人员发送电子邮件，而且应将机密信息限制在 C 级高管范围内，并在考虑先前上下文的前提下提供简洁摘要。ASSERT 会利用这些规则生成测试用例，检查系统是否持续遵守这些规则。

微软表示，这一框架填补了更广泛、更加通用的评估所无法覆盖的空白，尤其是在 AI 模型被要求在由应用或产品的上下文、策略和工具所塑造的方式下运行时。

微软负责负责任 AI 的首席产品官 Sarah Bird 说：“我们学到的一件事是，评估对于做出好的决策绝对至关重要。因为如果你不了解 AI 系统的行为，就很难知道它是否达到了你组织的标准……我们发现，如果你真的想拥有一个值得信赖的系统，就应该在更多应用特定的维度上进行评估。”

Bird 说，ASSERT 可用于在系统构建过程中进行评估、在部署后进行评估，甚至可用于持续监控。

此次发布正值 AI 行业经历一场缓慢但更广泛的转变之际。随着模型能力不断增强，研究人员正将重点放在可重复测试和回归检查上，斯坦福的 HELM、MLCommons 的 AILuminate，以及 METR 等评估组织也在推出基准，用于衡量模型在不同条件下的表现。

来源与参考

收录于 2026-06-03