FLARE-AI 让用户举报有害 AI 行为

WIRED AI·7月2日 02:10 UTC·作者 Will Knight

关键信息

研究人员表示，该平台采用开源代码，方便他人验证问题并查看报告处理方式。他们也指出一个主要难点：系统可能会收到大量低质量或不严重的报告，因此可靠的分流机制和权威机构支持非常重要。

资讯摘要

一组 AI 研究人员推出了 FLARE-AI，全称是 Flaw Reporting for AI，这是一个用于报告和追踪有害 AI 行为的众包网站。这个平台希望给用户提供一个统一入口，用来上报 AI 系统生成恶意软件或炸弹制作指南、泄露隐私信息，或者引发心理伤害等问题。文章提到，这类伤害还包括让用户产生或加剧情绪和认知方面的风险，例如鼓励妄想式思维。FLARE-AI 的代码是开源的，因此外部人员可以检查系统实现、验证问题，并了解报告会如何被转交处理。

研究人员表示，报告可以发送给模型开发者，也可以转给 MITRE 这类追踪技术系统问题的机构。HuggingFace 的人工智能政策研究员 Avijit Ghosh 表示，目前并不存在一个集中、可追责的 AI 缺陷报告机制。该项目由 49 位来自 32 家机构的 AI 专家共同参与开发，研究者认为它对 AI 更广泛落地、尤其是更强大的 agentic 系统出现，可能会越来越重要。文章最后还提到，美国国会最近提出的一项法案，可能要求 NIST 制定 AI 缺陷报告标准，并维护一个集中式的 AI 缺陷报告数据库。

来源与参考

收录于 2026-07-02