FLARE-AI 让用户举报有害 AI 行为
WIRED AI··作者 Will Knight
关键信息
研究人员表示,该平台采用开源代码,方便他人验证问题并查看报告处理方式。他们也指出一个主要难点:系统可能会收到大量低质量或不严重的报告,因此可靠的分流机制和权威机构支持非常重要。
资讯摘要
一组 AI 研究人员推出了 FLARE-AI,全称是 Flaw Reporting for AI,这是一个用于报告和追踪有害 AI 行为的众包网站。这个平台希望给用户提供一个统一入口,用来上报 AI 系统生成恶意软件或炸弹制作指南、泄露隐私信息,或者引发心理伤害等问题。文章提到,这类伤害还包括让用户产生或加剧情绪和认知方面的风险,例如鼓励妄想式思维。FLARE-AI 的代码是开源的,因此外部人员可以检查系统实现、验证问题,并了解报告会如何被转交处理。
研究人员表示,报告可以发送给模型开发者,也可以转给 MITRE 这类追踪技术系统问题的机构。HuggingFace 的人工智能政策研究员 Avijit Ghosh 表示,目前并不存在一个集中、可追责的 AI 缺陷报告机制。该项目由 49 位来自 32 家机构的 AI 专家共同参与开发,研究者认为它对 AI 更广泛落地、尤其是更强大的 agentic 系统出现,可能会越来越重要。文章最后还提到,美国国会最近提出的一项法案,可能要求 NIST 制定 AI 缺陷报告标准,并维护一个集中式的 AI 缺陷报告数据库。

来源与参考
收录于 2026-07-02