Forum AI 评测高风险问题回答
TechCrunch AI··作者 Connie Loizos
关键信息
Brown 表示,Forum AI 会邀请顶尖领域专家设计评测基准,再训练 AI 裁判按照这些标准评估模型输出。她还认为当前的合规与审计方式过于表面化,真正的评测必须覆盖边缘案例、上下文缺失和意识形态偏见等问题。
资讯摘要
Campbell Brown 过去曾先后做过知名电视记者,并在 Meta 负责新闻业务;她表示自己创办 Forum AI 的原因,是她认为 AI 正在成为人们获取信息的主要通道。她在旧金山的一场 StrictlyVC 活动上对 TechCrunch 说,自己第一次强烈意识到这个问题,是在 ChatGPT 公布后不久,因为她很快看出它会影响用户相信什么。Brown 说,这件事让她甚至联想到自己的孩子,担心如果没人解决这个问题,AI 生成的信息会带来很大危害。Forum AI 成立于 17 个月前,总部在纽约,重点评测她所说的“高风险议题”,包括地缘政治、心理健康、金融和招聘。公司的方法是先邀请顶尖领域专家来设计基准测试,再训练 AI 裁判对模型输出进行大规模评估。Brown 透露,在地缘政治评测中,Forum AI 已经邀请了 Niall Ferguson、Fareed Zakaria、前国务卿 Tony Blinken、前众议院议长 Kevin McCarthy,以及曾负责奥巴马政府网络安全事务的 Anne Neuberger 等人参与。她说,Forum AI 已经让 AI 裁判与这些人类专家达到约 90% 的一致性。
Brown 认为,当前基础模型公司过于专注编码和数学,而新闻、信息与分析类任务更难,但也同样重要。她举例说,Forum AI 发现 Gemini 会在与中国无关的报道中引用中国共产党网站,还指出多数模型都存在不同程度的左倾政治偏见。她还提到,模型常见的问题包括缺少上下文、缺少不同视角,以及在不说明前提的情况下歪曲对手论点。Brown 把这件事与自己在 Facebook 的经历联系起来,认为平台过去一味优化互动量,最终对社会造成了不好的结果,她当年建立的事实核查项目如今也已经不存在。她希望 AI 能避免重蹈社交媒体的覆辙,朝着真实、诚实和准确的方向优化,不过她也承认这种想法听起来可能有些理想化。Brown 认为,企业用户也许会成为推动这一变化的力量,因为做信用、贷款、保险和招聘的公司非常在意责任风险和结果正确性。尽管如此,她也承认当前合规市场仍然偏表面化,很多客户只满足于打勾式审计和标准化基准,而这些方法并不能覆盖真实世界中的边缘案例。

资讯正文
Campbell Brown 一直把自己的职业生涯都花在追求准确信息上:先是作为知名电视新闻记者,后来又成为 Facebook 的首位、也是唯一一位专职新闻负责人。如今,眼看 AI 正在重塑人们获取信息的方式,她觉得历史似乎正要重演。这一次,她不打算等别人来解决问题。
她的公司 Forum AI 最近在旧金山的一场 StrictlyVC 晚间活动上,由 TechCrunch 的 Tim Fernholz 采访时谈到了这一点。该公司会评估基础模型在她所谓的“高风险话题”上的表现——地缘政治、心理健康、金融、招聘,这些主题“没有明确的是或非答案,情况模糊、细腻而复杂”。
思路是先找到世界顶尖专家,请他们设计评测基准,然后训练 AI 裁判来大规模评估模型。就 Forum AI 的地缘政治工作而言,Brown 已经招募了 Niall Ferguson、Fareed Zakaria、前国务卿 Tony Blinken、前众议院议长 Kevin McCarthy,以及在奥巴马政府时期负责网络安全的 Anne Neuberger。目标是让 AI 裁判与这些人类专家达成大约 90% 的一致率,她说 Forum AI 已经能够达到这一门槛。
Brown 将 Forum AI 的起点追溯到一个具体时刻。这家公司成立于 17 个月前,总部在纽约。“我在 Meta 工作时,ChatGPT 刚刚首次公开发布,”她回忆说,“我记得在那之后没多久就意识到,这会成为所有信息流动的漏斗。而它做得并不好。”这一点对她自己的孩子也带来了近乎生存层面的意义。“如果我们不想办法把这件事修好,我的孩子们会变得非常笨,”她回忆自己当时这样想。
最让她沮丧的是,准确性似乎并不是任何人的优先事项。她说,基础模型公司“极其专注于编码和数学”,而新闻和信息则更难处理。但她认为,更难并不意味着可以忽视。
事实上,当 Forum AI 开始评估领先模型时,结果并不令人鼓舞。她提到 Gemini 会从中国共产党网站抓取内容,“用于那些与中国毫无关系的故事”,并指出几乎所有模型都存在偏左的政治偏见。她说,还普遍存在更细微的失误,包括缺乏上下文、缺少不同视角、在不加说明的情况下歪曲对手论点。“还有很长的路要走,”她说,“但我也认为,有一些非常简单的修正,就能大幅改善结果。”
Brown 在 Facebook 工作多年,亲眼见证了当一个平台为错误目标优化时会发生什么。“我们在很多尝试中都失败了,”她告诉 Fernholz。她建立的事实核查项目如今已经不复存在。即便社交媒体对此视而不见,这一教训也在于:围绕参与度进行优化,对社会而言一直很糟糕,也让很多人获得了更少的信息。
她希望人工智能能够打破这个循环。她说:“现在它可能朝任一方向发展。” 公司可以给用户他们想要的东西,也可以“给人们真实、诚实和真实的东西。” 她承认,这种关于 AI 优化真相的理想主义版本听起来可能有些天真。但她认为,企业或许是这里出人意料的盟友。使用 AI 进行信用决策、贷款、保险和招聘的企业关心责任风险,而“他们会希望你优化的是把事情做对”。
她说,企业需求也是 Forum AI 下注其业务的方向,不过,将合规兴趣转化为稳定收入仍然是一项挑战,尤其是因为当前市场的很大一部分仍然满足于勾选式审计和标准化基准测试,而 Brown 认为这些都不够。
她说,合规环境“简直是个笑话”。当纽约市通过首部要求对 AI 进行审计的招聘偏见法时,州审计长发现,超过一半的审计存在未被发现的违规问题。她说,真正的评估需要领域专业知识,不仅要处理已知场景,还要处理那些“会让你惹上麻烦、而人们根本想不到”的边缘情况。而这项工作需要时间。“聪明的通才并不够。”
Brown——她的公司去年秋天在 Lerer Hippeau 领投下筹集了 300 万美元——表示,Forum AI 处于独特位置,可以描述 AI 行业的自我形象与大多数用户现实之间的脱节。她说:“你会听到大科技公司的领导者说,‘这项技术将改变世界’,‘它会让你失业’,‘它会治愈癌症’。” “但对于一个只是用聊天机器人问基础问题的普通人来说,他们得到的仍然是大量垃圾内容和错误答案。”
来源与参考
收录于 2026-05-15