前Facebook高管创办AI内容审核公司Moonbounce
TechCrunch AI··作者 Rebecca Bellan
关键信息
Moonbounce的基于大语言模型的系统能在300毫秒内评估内容,并根据客户偏好选择延迟分发等待人工审核或立即拦截高风险内容。其客户包括AI伴侣初创公司、图像生成公司以及Tinder等平台。
资讯摘要
布雷特·莱文森曾在Facebook负责业务合规,他意识到内容审核不仅是技术问题,更是人的问题——审核人员面对复杂的政策和不切实际的时间限制感到力不从心。这一洞察促使他创建了Moonbounce,将静态政策转化为机器可读的逻辑。该公司的人工智能系统能实时分析内容,在300毫秒内做出响应,并支持自动化或人工介入决策。
目前该系统每天处理超过4000万次审核,服务超1亿用户,覆盖AI聊天机器人、约会应用和生成式AI工具等多个领域。莱文森认为,安全应该从一开始就融入产品设计,而不是事后补救。

资讯正文
当布雷特·利文森(Brett Levenson)于2019年离开苹果公司,前往Facebook担任业务完整性负责人时,这家社交媒体巨头正深陷剑桥分析公司(Cambridge Analytica)丑闻之中。当时他认为,只需借助更先进的技术就能解决Facebook的内容审核问题。
但他很快发现,问题远不止技术层面。他说,审核人员需要记住一份长达40页的政策文件——这份文件是通过机器翻译成他们语言的。然后,他们每处理一条被标记的内容只有大约30秒时间,不仅要判断该内容是否违反规定,还要决定如何处置:屏蔽、封禁用户还是限制传播范围。这些快速决策的准确率仅略高于50%。
利文森告诉TechCrunch:“这就像抛硬币一样,人类审核员能否正确执行政策完全看运气,而且往往是在伤害已经发生数日后才进行判断。”
这种滞后且被动的应对方式在面对行动敏捷、资金充足的对抗性行为者时已不可持续。人工智能聊天机器人的兴起进一步加剧了这一问题,因为内容审核失败引发了一系列高曝光事件,比如聊天机器人向青少年提供自残建议,或者AI生成图像绕过安全过滤机制。
利文森的挫败感促使他提出了“政策即代码”(policy as code)的概念——将静态的政策文档转化为可执行、可更新的逻辑,并与执行机制紧密耦合。这一洞见最终促成了Moonbounce公司的创立。TechCrunch独家获悉,该公司周五宣布已完成1200万美元融资,由Amplify Partners和StepStone Group共同领投。
Moonbounce与企业合作,在任何内容生成场景中提供额外的安全层,无论内容是由用户还是AI生成的。该公司训练了自己的大型语言模型,能够读取客户政策文档,在运行时评估内容,300毫秒内给出响应并采取行动。根据客户偏好,该行动可能是延迟分发内容,等待后续人工审核;也可能是即时阻止高风险内容。
目前,Moonbounce主要服务三大领域:处理用户生成内容的平台,如约会应用;开发虚拟角色或陪伴型AI的公司;以及AI图像生成工具厂商。
Levenson表示,Moonbounce目前支持每天超过4000万次内容审查,并为平台上超过1亿活跃用户提供服务。客户包括AI伴侣初创公司Channel AI、图像和视频生成公司Civitai,以及角色扮演平台Dippy AI和Moescape。
“安全实际上可以成为产品的一个优势,”Levenson告诉TechCrunch,“但过去它从未被当作一个可构建的功能,而总是在产品之后才考虑。我们看到客户正在以非常有趣且创新的方式使用我们的技术,将安全作为差异化因素,并融入他们的产品故事中。”
最近,Tinder的信任与安全负责人解释了该约会平台如何利用这类基于大语言模型(LLM)的服务,使检测准确率提升10倍。
“内容审核一直是大型在线平台长期面临的问题,但现在随着大语言模型成为每个应用的核心,这一挑战变得更加严峻,” Amplify Partners合伙人Lenny Pruss在声明中表示,“我们投资Moonbounce,是因为我们设想一个世界,在那里客观的、实时的防护机制将成为每款由AI中介的应用程序的支撑基础。”
在聊天机器人被指控诱导青少年和弱势用户走向自杀,以及像xAI的Grok这样的图像生成工具被用于制作非自愿的裸体图像后,AI公司正面临日益增长的法律和声誉压力。显然,内部的安全防护机制已经失效,这已成为一项责任问题。Levenson表示,越来越多的AI公司开始寻求外部帮助,以强化自身安全基础设施。
“我们是位于用户和聊天机器人之间的第三方,因此我们的系统不像聊天本身那样充斥着大量上下文信息,”Levenson说,“聊天机器人必须记住此前可能成千上万的token……而我们只专注于运行时规则的执行。”
Levenson与前苹果同事Ash Bhardwaj共同领导这家12人的公司,后者曾负责苹果核心产品线的大规模云和AI基础设施建设。他们接下来的重点是一个名为“迭代引导”的功能,这是对2024年一名14岁佛罗里达男孩因沉迷Character AI聊天机器人最终自杀事件的回应。与遇到有害话题时直接拒绝不同,该系统将在对话中进行拦截并重新引导,实时修改提示词,促使聊天机器人转向更具支持性的回应。
“我们希望能在现有行动工具箱中加入一种能力,即在关键时刻引导聊天机器人走向更积极的方向——本质上是调整用户的提示词,迫使聊天机器人不仅成为一个共情的倾听者,更成为一个有帮助的倾听者,”Levenson说。
当被问及退出策略是否涉及被Meta等公司收购,从而让他的内容审核工作回到老东家时,Levenson表示他清楚Moonbounce会多么契合旧雇主的技术栈,同时也认识到作为CEO所肩负的职责义务。
“我的投资者会因为我这样说而杀了我,但我真的不希望有人收购我们之后限制这项技术,”他说,“比如,‘好吧,现在这是我们的了,其他人就不能从中受益了。’
来源与参考
收录于 2026-04-04