Gemini 正在泄露真实电话号码

MIT Technology Review AI·5月14日 02:09 UTC·作者 Eileen Guo

关键信息

专家推测，训练数据中的个人可识别信息可能是原因之一，但具体机制尚不清楚。DeleteMe 表示，过去七个月里，客户关于生成式 AI 隐私的咨询增长了 400%，其中 20% 涉及 Gemini，55% 涉及 ChatGPT。

资讯摘要

文章描述了一个正在加剧的隐私问题：Google 的生成式 AI 工具（包括 Gemini）似乎会直接给出真实个人的电话号码。文中提到，一名 Reddit 用户表示自己“急需帮助”，因为一个月里不断接到陌生来电，对方在找律师、产品设计师或锁匠，而这些人似乎是被 Google AI 错误指引过来的。文章同时说明，这一说法无法独立核实，因为该用户没有回应多次采访请求。另一个案例中，以色列一名软件开发者称，他在 WhatsApp 上收到联系，是因为 Gemini 给出了错误的客服指引，其中包含了他的号码。

华盛顿大学的一名博士生也说，她在和 Gemini 互动时，让它输出了同事的私人手机号码。研究人员和隐私专家认为，这类问题可能与训练数据中包含个人可识别信息有关，但具体出错机制尚不清楚。DeleteMe 表示，过去七个月里，客户关于生成式 AI 隐私的咨询增长了 400%，已达到几千条。该公司称，这类投诉通常有两种形式：要么聊天机器人直接泄露用户自己的家庭住址、电话号码、亲属姓名或雇主信息；要么生成看似合理但实际错误的联系方式，从而暴露他人的隐私。

资讯正文

人们反映，Google AI 会暴露他们的个人联系方式，而且显然没有什么简单的方法可以阻止这种情况发生。

一名 Reddit 用户最近写道，他“急需帮助”：大约一个月来，他的手机一直被“陌生人”打来的电话轰炸，这些人“在找律师、产品设计师、锁匠”。打电话的人显然是被 Google 的生成式 AI 误导了。

3 月份，以色列一名软件开发者在 WhatsApp 上收到联系，此前 Google 的聊天机器人 Gemini 提供了错误的客服指引，其中包含了他的号码。

而在 4 月，华盛顿大学的一名博士生在 Gemini 上随手试了试，结果让它吐出了她一位同事的私人手机号码。

长期以来，AI 研究人员和网络隐私专家一直警告，生成式 AI 会给个人隐私带来许多危险。如今这些案例又给我们增加了一个需要担心的场景：生成式 AI 暴露人们真实的电话号码。（那位 Reddit 用户没有回应多次置评请求，我们也无法独立核实他的说法。）

专家表示，这些隐私失误最有可能是因为训练数据中使用了可识别个人身份的信息（PII），不过要准确理解究竟是什么机制导致真实电话号码出现在 AI 生成的回应中，仍然很困难。但无论原因是什么，最终承受后果的都是电话另一端的人——而且更令人担忧的是，似乎几乎没有什么办法能阻止它。

AI 相关隐私请求增加了 400%

目前无法知道人们的电话号码究竟有多经常被 AI 聊天机器人暴露，但专家表示，他们认为这种情况发生的频率远高于公开报道的数量。

DeleteMe 是一家帮助客户从互联网上移除个人信息的公司。该公司表示，过去七个月里，客户关于生成式 AI 的查询增加了 400%，达到数千次。公司联合创始人兼首席执行官 Rob Shavell 说，这些查询“明确提到了 ChatGPT、Claude、Gemini ……或者其他生成式 AI 工具”。Shavell 说，具体来看，这些关于生成式 AI 的担忧中，55% 提到了 ChatGPT，20% 提到了 Gemini，15% 提到了 Claude，10% 提到了其他 AI 工具。（MIT Technology Review 拥有 DeleteMe 的商业订阅。）

Shavell 说，客户投诉大型语言模型泄露个人信息通常有两种形式：一种是“客户向聊天机器人询问一些关于自己的无害问题，却得到了准确的家庭住址、电话号码、家庭成员姓名或雇主信息。” 另一种情况则是，客户会发现并报告他人的个人数据被暴露，因为“聊天机器人生成了看似合理但错误的联系信息”。

这与 Daniel Abraham 遭遇的情况相符。Abraham 是以色列一名 28 岁的软件工程师。3 月中旬，他说，一名陌生人通过“一个未知号码发来的奇怪 WhatsApp 消息”联系他，请他帮助处理 PayBox 账户问题。PayBox 是一款以色列支付应用。

“我当时以为这是一条垃圾信息，”他在一封电子邮件中写给 MIT Technology Review，称那是“某个想来捉弄我的人”。

但当他问那名陌生人是如何找到他的号码时，对方给他发了一张截图，里面是 Gemini 指示通过 WhatsApp 联系 PayBox 客服——并给出了他的个人号码。Abraham 并不为 PayBox 工作，而且 PayBox 也没有 WhatsApp 客服号码，该公司的一名客服代表 Elad Gabay 证实了这一点。

后来，Abraham 询问 Gemini 如何联系 PayBox，它又生成了另一个人的 WhatsApp 号码。最近我自己问起这个问题时，Gemini 再次给出了一个以色列电话号码——它属于的并不是 PayBox，而是一家与 PayBox 合作的独立信用卡公司。

Abraham 与那名陌生人的交流很快就结束了，但他说，他担心其他潜在的交流可能会迅速变得糟糕，包括“骚扰或其他不良互动”。“如果我为了‘解决’那个[客服]问题而索要钱呢？”他说。

为了弄清这究竟是怎么发生的，Abraham 在自己的手机上用常规的 Google 搜索了自己的电话号码，结果发现这个号码曾在 2015 年被发布到网上一次，发布地点是一个类似 Quora 的本地网站。虽然他不确定是谁把它贴上去的，但这或许能解释它为什么在十多年后又被 Gemini 复现了出来。

像 Gemini、OpenAI 的 ChatGPT 和 Anthropic 的 Claude 这样的聊天机器人，建立在大语言模型之上，而这些模型是用从整个网络抓取的大量数据训练出来的。这不可避免地包含了数亿条个人身份信息（PII）。例如，正如我们去年夏天报道过的，用于训练图像生成模型的大型热门开源数据集 DataComp CommonPool，就包含了简历、驾照和信用卡的副本。

随着可公开获取的数据“告罄”，AI 公司转而寻找新的高质量训练数据来源，训练数据中出现 PII 的可能性只会越来越高。这包括来自数据经纪商和人物搜索网站的信息。比如根据加州数据经纪商注册库的数据，在该州运营的 578 家注册数据经纪商中，有 31 家自报在过去一年里曾“向某个 GenAI 系统或模型的开发者共享或出售消费者数据”。

此外，众所周知，模型会逐字记忆并复现训练数据集中的内容——而最新研究表明，并不只是那些高频出现的数据最容易被记住。

不完善的措施

如今，在 LLM 的设计中加入防护措施以限制某些输出，已经成为标准做法；这些措施范围很广，从用于识别并阻止聊天机器人泄露 PII 的内容过滤器，到 Anthropic 对 Claude 的指令，即选择那些包含“最少属于他人个人、私密或机密信息”的回答。

但正如华盛顿大学两名正在研究隐私与技术的博士生最近亲眼所见，这些防护措施并不总是有效。

“有一天，我只是在 Gemini 上随便玩玩，搜索了我的朋友兼合作伙伴 Yael Eiger，”Meira Gilbert 说。她输入了“Yael Eiger contact info”，在 Gemini 给出了 Eiger 研究工作的概述——这正是 Gilbert 所预料到的——之后，Gemini 还返回了她朋友的私人电话号码。“这太令人震惊了，”Gilbert 说。

当她看到 Gemini 的结果时，Eiger 想起自己确实在前一年为一次技术研讨会把电话号码发布到了网上。但她没想到，这些信息会对互联网上的所有人都如此可见。

Eiger 说，“你的信息……对某一类受众可访问，随后 Gemini 又把它变成对任何人都可访问”，这种感觉完全不同——尤其是当她发现，这些信息其实只是被埋在一次普通的 Google 搜索结果里。

Gilbert 证实说：“它的排名被严重降下去了。要是我只是翻看 Google 搜索结果，我绝不可能找到它。”（本月早些时候，我在 Gemini 里试了同样的提示词，在最初拒绝之后，这个工具也给了我 Eiger 的号码。）

在这次经历之后，Eiger、Gilbert 以及另一名华盛顿大学（UW）的博士生 Anna-Maria Gueorguieva 决定测试 ChatGPT，看看它会揭示一位教授的哪些信息。

起初，OpenAI 的防护机制启动了，ChatGPT 回复称这些信息不可用。但就在同一条回复里，这个聊天机器人又建议：“如果你想进一步挖掘，我仍然可以尝试一种更‘调查式’的方法。”ChatGPT 说，他们的问题只需要帮助“缩小范围”，比如提供教授可能居住的“街区猜测”，或者教授房产的“可能共同所有人姓名”。ChatGPT 继续说：“通常只有这样才能浮现较新或被刻意降低可见度的房产记录。”

学生们提供了这些信息，ChatGPT 于是从城市房产记录中给出了这位教授的家庭住址、购房价格以及配偶姓名。

（OpenAI 代表 Taya Christianson 表示，在没有看到截图或不知道学生测试的是哪个模型的情况下，她无法就这一案例发生了什么作出评论；即便我们指出，许多用户在 ChatGPT 界面中可能并不知道自己使用的是哪个模型，她仍然如此。她也拒绝就聊天机器人暴露个人身份信息（PII）的问题作一般性评论，而是提供了一些文件链接，介绍 OpenAI 如何处理隐私，包括过滤 PII，以及其他工具。）

DeleteMe 的 Shavell 说，这揭示了聊天机器人一个根本性的问题。AI 公司“可以内置防护栏，但[它们的聊天机器人]也是为了高效、为了回答客户问题而设计的”。

这种泄露问题并不只限于 Gemini 或 ChatGPT。去年，Futurism 发现，如果你用“[姓名] address”去提示 xAI 的聊天机器人 Grok，在几乎所有情况下，它不仅会给出住宅地址，还经常会提供这个人的电话号码、工作地址，以及一些读音相近姓名的人的地址。（xAI 没有回应置评请求。）

目前还没有明确答案

对于这个问题，并没有直接的解决方案——既没有简单的方法可以验证某个人的个人信息是否出现在某个模型的训练集中，也没有简单的方法迫使模型删除 PII。

斯坦福大学人类中心人工智能研究所的隐私与数据研究员 Jennifer King 说，理想情况下，个人消费者应该能够要求删除自己的 PII。但她解释说，这通常被理解为只适用于人们直接提供给公司的数据——比如他们与聊天机器人互动时产生的数据。

她说：“我不知道 Google 甚至有没有那种基础设施……能对我说，‘是的，我们的训练数据里有你的数据，我们可以概括我们对你的了解，然后删除或更正那些错误的内容，或者你不想留在里面的内容。’”

现有的隐私立法，比如《加州消费者隐私法案》或欧洲的 GDPR，并不涵盖已经被抓取并用于训练大语言模型（LLM）的“公开可得”信息，尤其是因为其中很大一部分已经经过匿名化处理（尽管多项研究也表明，从匿名和假名数据中推断身份和 PII 有多么容易）。

至于“他们 [AI 公司] 是否曾经系统地尝试回头处理那些已经从公开互联网收集来的数据，并把这些内容缩减掉？”King 补充说：“不知道。”

她说，次优的方案是这些公司“把所有人的电话号码，或者所有类似 [电话号码] 的数据都删掉”，但“没有人愿意说”他们正在这么做。

Hugging Face 是一个托管开源数据集和 AI 模型的平台，它提供了一种工具，允许人们搜索某条数据——比如自己的电话号码——在开源大语言模型训练数据集中出现过多少次，但这并不一定代表这些数据也被用于训练支撑 Claude、ChatGPT 和 Gemini 等热门聊天机器人的闭源大语言模型。（例如，Eiger 的号码并没有在 Hugging Face 的工具中显示出来。）

Gemini 应用和 Google Labs 的传播负责人 Alex Joseph 没有回应具体问题，但他说，“团队”正在“调查” MIT Technology Review 标出的这些个案。他还提供了一份支持文档链接，说明用户如何“反对处理你的个人数据”，或者“要求更正 Gemini Apps 回复中的不准确个人数据”。该页面指出，公司的回应将取决于你所在司法管辖区的隐私法律。

OpenAI 设有隐私门户，允许人们提交请求，要求从 ChatGPT 的回复中删除自己的个人信息，但同时也说明，公司会在隐私请求与公共利益之间进行权衡，并且“如果我们有合法理由，可能会拒绝该请求”。

Anthropic 说明了它在模型训练中如何使用个人数据，但并没有提供一个清晰的方式让人们要求删除这些数据。该公司没有回应置评请求。

对于任何想要保护自己私人数据的人来说，目前最好的做法是“从上游开始：在个人数据流入下一轮抓取之前，把它从公开网络上移除”，Shavell 说。比如从今年年初开始，加州已经为本州居民提供了一个网页门户，方便他们要求数据经纪商删除自己的信息。尽管如此，这并不能保证你的数据此前没有被用于训练——因此也就不会出现在聊天机器人的回答里。

那位收到没完没了来电的 Reddit 用户发帖称，他已经“向 Google 提交了正式的法律删除/隐私请求，要求他们紧急将我的号码从他们的 LLM 输出中拉黑”，但至今仍未收到回复。他上个月还写道，“骚扰每天都在继续。”

这位以色列软件开发者 Abraham 说，他在 3 月 17 日——也就是自己的电话号码被泄露后的第二天——联系了 Google 客服。他表示直到 5 月 4 日才收到回复，而且对方只是要求他提供他其实早已提交过的文件。

与此同时，受自己在 Gemini 上的信息泄露启发，Eiger 联合 Gilbert 和 Gueorguieva 正在设计一个研究项目，以进一步研究各种 AI 聊天机器人正在曝光哪些个人信息——以及它们可能知道什么，即便它们并没有告诉我们。

Gilbert 说，其中一些信息“从技术上讲可能是公开的”，但聊天机器人可能改变了人们去找到这些信息所需付出的“努力程度”。现在，与其在 Google 搜索结果中翻 10 页，或者从数据经纪商网站付费获取信息，“生成式 AI 会不会只是降低了针对个人下手的门槛？”

来源与参考

收录于 2026-05-14