旧数据可能拖慢企业 AI 部署

ZDNET AI··作者 Joe McKendrick

关键信息

在 Fidelity,Copilot 试用很快就把多年存放在 SharePoint 上的 PowerPoint 文件和 PDF 调了出来,发放许可证仅两天后就引发了法务审查。在 EY,全球各成员所之间的数据归属并不清晰,数拍字节的 SharePoint 内容缺乏生命周期管理,也没有明确负责人,因此他们先核实归属,然后除了持证用户外先关闭了访问。

资讯摘要

ZDNET 表示,企业 AI,包括 agentic AI 和生成式 AI,正在提升生产力,并让公司内部信息更容易被查找。但在纽约最近举行的 Veeam 会议上发言的高管提醒说,这些好处也可能把深埋多年的数据重新暴露出来。Fidelity Investments 高级副总裁 Steve MacIntyre 说,这家拥有 40 万名员工的公司在 AI 搜索中看到了旧的 SharePoint 文件和网络附加存储中的内容浮现出来。他强调,这不是 AI 的缺陷,而是因为 AI 以非常快的速度搜索它能够访问的全部内容。在他看来,真正的问题是原本被视为不重要的非结构化数据,一旦 LLM 能检索出来,就突然变得有价值。

EY 企业技术首席架构师 Wim Geurden 也描述了类似挑战,EY 的全球独立成员所网络让数据归属变得复杂。EY 需要先确认谁拥有这些数据,再对其进行识别和标记,然后在建立防护措施期间关闭广泛访问。他说,公司发现大量 SharePoint 内容没有明确负责人,也缺乏生命周期管理。文章的核心观点是,企业推进 AI 部署时,必须把数据治理当作和技术实施同等重要的工作。

旧数据可能拖慢企业 AI 部署

资讯正文

AI 能提升生产力并改善数据访问。

技术负责人不得不因为数据问题而暂停部署。

那些被长期遗忘的洞见会随着 AI 提示而重新浮现。

代理式 AI 和生成式 AI 已经为企业中的专业人士打开了信息和洞见的大门。不过,有证据表明,这种趋势可能“好得过了头”。在最近的一场会议上,企业 AI 部署领域的资深人士向那些考虑一头扎进 AI 的专业人士发出了谨慎提醒。

这些专业人士遇到的问题,甚至导致原本旨在提升员工生产力的 AI 部署被暂时叫停,因为高管们重新评估了哪些信息可能会在内部被暴露出来。与此同时,这些在纽约市举行的 Veeam 近期会议上参加小组讨论的高管强调,AI 并不是问题的根源。两位发言者所在的组织都积累了海量数据,其中一家还需要建立新的治理结构。

此外:96% 的 IT 专业人士现在都在使用 AI:他们最主要的 7 种代理式应用,以及最大的实施障碍

Fidelity Investments 高级副总裁 Steve MacIntyre 描述了他那家拥有 40 万名员工的公司如何看到原本深藏在组织角落里的数据——例如位于 SharePoint 站点或网络附加存储中的数据——突然通过 AI 提示浮现出来。他说:“这不是 AI 问题。问题在于生产力,以及 AI 快速查找内容的能力。”

EY 企业技术首席架构师 Wim Geurden 描述了该公司的挑战:要厘清其全球独立附属机构网络中的数据所有权——这些数据同样也会通过其 AI 引擎浮现出来。他说:“当大型企业搜索上线时,各种各样的东西开始在人们会去查看的地方浮现出来。”

“EY Global 并不拥有任何数据。每一家成员所都拥有自己的数据。这就是最初问题被提出来的地方。这里到底是什么?有多少个 SharePoint 站点?我们有多达数拍字节的数据,而且那简直就是西部蛮荒。那些 SharePoint 站点没有生命周期管理,其中一半没有所有者。我们不知道它们上一次被访问是什么时候。”

此外:51% 的专业人士表示 AI workslop 会降低他们的生产力——用 2 个步骤阻止它

在 Fidelity,大量 PowerPoint 和 PDF 报告中的信息正在浮现。“我们在 Fidelity 有一整部历史,几十年来的研究笔记,比如 PDF,”MacIntyre 说。“我们发放了几份 Copilot 许可证,结果两天后,法务就来找我,说我们有一个 AI 问题。我的一个团队成员搜索某样东西,AI 返回了 SharePoint 上多年以前的所有 PowerPoint。”

MacIntyre 继续说,AI 是一个“运行速度极快、非常强大的搜索引擎”。“突然之间,它在搜索自己可以访问的一切,并以一种有意义的方式把这些内容呈现给我们。所有人都以为我们有一个 AI 问题,但它揭示的其实是一个数据安全问题。”

当我们立刻意识到,我们手头其实有这么多我们原本以为并不在意的数据——非结构化数据——而LLM出现后,突然间这些数据都变成了黄金时,这个问题就真正摆到了台面上。

建立护栏

在EY,随着其庞大的数据存储向AI开放,首要任务是“找出数据归谁所有”,Geurden说。“我们做的第二件事是把一切都关掉。”只有持有许可的用户才能访问Copilot工具。

此外:构建一项能带来回报、又不至于让业务失败的agentic AI战略

Geurden继续说,数据所有权核验流程包括识别并标注在整个EY企业中发现的数据。例如,标签包括“机密”或“金融服务”。

Geurden解释说,AI本身也提供了一种帮助标注公司非结构化数据知识库的方法,并指出在人力标注面前,25%的年人员流失率是一个挑战。

不过,标注需要深入到比简单高层标签更细的层面。Geurden说:“第一件事是,我们必须知道AI运行时那里有什么。我们需要历史图景,需要版本。”然后,“我们必须远远超越对机密信息的标注。我们需要地理限制、地理标签、业务线标签,并与我们的合同关联起来,因为我们会收到大量客户数据,明确说明我们可以做什么、不能做什么。”

此外:美国政府机构中已有超过80%在使用AI代理——而这才刚刚开始

他补充说,所有这些元数据都必须写入合同:“这部分很简单。然后我们必须把它编码到某种技术结构里。就目前而言,这仍然非常、非常繁琐。”

高管们强调,治理是这些AI落地方案在各个方面取得成功的关键。MacIntyre说:“我们必须知道正在使用什么。”“这就引出了影子AI、影子IT之类的问题——而这又回到终端数据。我们必须知道资产清单是准确的。它们是否与已登记并获批准的用例一致?这样,至少我们知道,如果有人正在做某项工作,他们就应该使用Claude,因为它与某个已获批准的特定项目相关联。”

此外:这4个关键AI漏洞正比防御者反应更快地被利用

接下来,“我们必须考虑,希望这些代理在哪种安全环境中运行?”MacIntyre继续说:“我们希望它们如何与基础模型交互?我们要建立什么样的架构,把所有这些活动引导到一个能让我们获得正确可见性和遥测的地方,以便我们看见使用AI的代理和应用是否按照预期方式运行?或者是否在异常运行?”

MacIntyre说,另一个挑战——也许是当前所有数字化领导者面临的最棘手问题——是建立代理身份:“你如何给一个代理赋予身份?这样它们就成了员工。但如果我的代理只存活几秒钟呢?这真是个有趣的问题,而且我不知道是否已经有人真正把它解决好了。”

来源与参考

  1. 原始链接
  2. When old data brings AI rollouts to a screeching halt - and how to manage it

收录于 2026-05-29