OpenAI发布隐私过滤器,可在本地删除文本中的个人信息
The Decoder··作者 Maximilian Schreiner
关键信息
该模型可识别八类敏感信息,支持长达128,000个标记的长文档,并允许调整敏感度设置;但其本身不保证法律合规性,且对非英语文本表现不佳。
资讯摘要
OpenAI推出了Privacy Filter,这是一个参数为15亿的小型开源模型,可在本地运行以检测并删除文本中的姓名、邮箱、电话号码等个人信息。它优化了效率,每次请求仅使用5000万活跃参数,可在笔记本电脑或浏览器中离线运行。用户可以调整红标灵敏度,在激进和保守模式之间切换。
虽然适合一般用途且允许商业使用(Apache 2.0许可证),但OpenAI强调它应作为整体隐私策略的一部分,而非独立合规方案。该模型对非拉丁文字支持较差,可能遗漏罕见姓名或误删公众人物信息。在医疗、金融等高风险领域,仍需人工审核。

资讯正文
OpenAI发布开源模型,可从文本中删除个人数据
关键要点
- OpenAI发布了名为“Privacy Filter”的开源AI模型,该模型可在本地运行,自动在进一步处理前从文本中删除个人数据。
- 该模型可检测八类数据,包括姓名、地址和密码,能处理长文档,并提供可调节的删除敏感度。允许商业使用。
- 由于该模型无法保证符合法律要求的匿名化处理,且对非英语文本处理效果不佳,OpenAI建议在敏感场景下进行人工审核。
OpenAI已发布Privacy Filter,这是一个旨在检测并删除文本中个人数据的开源模型。
据OpenAI介绍,Privacy Filter专为需要在进一步处理前清理大量文本的团队设计,无论是用于训练自己的AI模型,还是与第三方共享数据。OpenAI表示,该模型相对较小,参数量为15亿,每次请求仅使用5000万个活跃参数,可在笔记本电脑上运行,甚至可以直接在浏览器中执行。明确支持在本地硬件上运行,无需任何云连接。
该模型可检测八类敏感内容:姓名、地址、电子邮件地址、电话号码、网址、日期、账户号码以及其他秘密信息(如密码或API密钥)。与传统聊天机器人不同,它不会生成新文本,而是对输入文本进行一次扫描,并标记出属于哪一类内容。OpenAI称,其12.8万token的上下文窗口可让模型处理长文档而无需拆分。
用户可以调整设置,控制模型是激进删除(高召回率,更多误删)还是保守删除(更少误删,但可能漏掉一些项目)。拥有自有数据集的团队还可以进一步微调该模型。
Privacy Filter已在GitHub和Hugging Face上以Apache 2.0许可证开放,允许商业使用。
适用于敏感场景的明确限制
OpenAI明确指出,Privacy Filter不提供任何法律上的匿名化或合规性保证。该模型仅是更广泛数据保护策略中的一个环节。OpenAI自身列出了几个弱点:罕见或区域性不常见的名字更容易被遗漏,知名公众人物或组织有时会被错误删除,且在非英语文本或非拉丁语系文字上的表现会下降。
对于医疗、法律、金融或人力资源等敏感领域,OpenAI明确建议保留人工审核流程。标签类别也无法在运行时更改,这意味着需要不同策略的团队必须对模型进行微调。
来源与参考
收录于 2026-04-24