微软 ASSERT 简化 AI 行为测试
TechCrunch AI··作者 Ram Iyer
关键信息
ASSERT 可以把自然语言规格转成可接受和不可接受的行为集合,生成测试用例,并记录中间动作和工具调用,方便开发者排查失败原因。微软还表示,开发者可以提供系统上下文、工具和约束条件,以缩小评估范围并提高针对性。
资讯摘要
微软发布了 ASSERT,全称是 Adaptive Spec-driven Scoring for Evaluation and Regression Testing,这是一个用于评估应用特定 AI 行为的开源框架。微软表示,这个工具会利用 AI,把高层次的自然语言描述——例如目标、政策和预期行为——转换成结构化测试。随后,ASSERT 会生成场景和测试用例,并在目标系统上执行这些测试。它还会记录系统的行为路径,包括中间动作和工具调用,这样开发者就能更容易定位失败发生在什么地方。开发者也可以补充系统上下文、工具和约束条件,让评估更贴近具体产品或服务。
微软给出的例子是,一个文档研究 AI 智能体可以被测试,确保它不会向公司外部的人发送邮件,只把机密信息提供给 C 级高管,并且在考虑先前上下文的前提下给出简洁摘要。微软认为,这类能力弥补了更通用的基准测试无法覆盖的空白,因为很多 AI 系统的行为会受到应用场景、政策和工具的强烈影响。微软负责 Responsible AI 的首席产品官 Sarah Bird 说,评估对于做出正确决策至关重要,因为如果不了解 AI 系统的行为,就很难判断它是否达到了组织要求。她还表示,真正可信的系统需要检查更多应用特定维度,而 ASSERT 可以用于开发阶段、部署之后,以及持续监控。

资讯正文
AI 研究人员和实验室在评估 AI 模型方面已经取得了长足进展,评估范围涵盖从安全性和合规性到谄媚性和对齐性等各个方面。但如今,企业和开发者似乎面临一个新的、具体的需求:确保他们的 AI 系统在其特定产品或服务中按照预期运行。
为了简化这一测试流程,微软周二发布了 ASSERT,全称为 Adaptive Spec-driven Scoring for Evaluation and Regression Testing。
微软表示,这一开源框架通过使用 AI,将高层次的自然语言目标、策略或预期行为描述转化为可深入审查的、带评分的完整测试,从而让评估应用特定的 AI 行为变得更容易。
ASSERT 会把对 AI 模型预期行为和策略的自然语言描述,转化为一组结构化的可接受与不可接受行为,生成问题场景和测试用例,将它们运行到目标系统上,并对结果进行评分。它还可以记录 AI 系统所走过的路径,包括中间动作和工具调用,以便开发者检查故障发生在什么地方。
如果开发者愿意进一步定制评估覆盖的内容,还可以提供系统上下文、工具和约束条件。
例如,开发者可以指定,一个文档研究 AI 代理不应向公司外部人员发送电子邮件,而且应将机密信息限制在 C 级高管范围内,并在考虑先前上下文的前提下提供简洁摘要。ASSERT 会利用这些规则生成测试用例,检查系统是否持续遵守这些规则。
微软表示,这一框架填补了更广泛、更加通用的评估所无法覆盖的空白,尤其是在 AI 模型被要求在由应用或产品的上下文、策略和工具所塑造的方式下运行时。
微软负责负责任 AI 的首席产品官 Sarah Bird 说:“我们学到的一件事是,评估对于做出好的决策绝对至关重要。因为如果你不了解 AI 系统的行为,就很难知道它是否达到了你组织的标准……我们发现,如果你真的想拥有一个值得信赖的系统,就应该在更多应用特定的维度上进行评估。”
Bird 说,ASSERT 可用于在系统构建过程中进行评估、在部署后进行评估,甚至可用于持续监控。
此次发布正值 AI 行业经历一场缓慢但更广泛的转变之际。随着模型能力不断增强,研究人员正将重点放在可重复测试和回归检查上,斯坦福的 HELM、MLCommons 的 AILuminate,以及 METR 等评估组织也在推出基准,用于衡量模型在不同条件下的表现。
来源与参考
收录于 2026-06-03