Data2Story将CSV变成可验证新闻文章

The Decoder··作者 Jonathan Kemper

关键信息

作者表示,Inspector 可以为 93% 的可见陈述附上精确的代码行、数据文件或支持性 URL,从而实现可验证性,但可验证并不等于一定正确。在覆盖 18 个数据集、并与人工撰写版本对比的读者研究中,智能体生成的文章在五个评估维度上全部胜出,整体上有 74% 的参与者更偏好它们。

资讯摘要

这篇报道介绍了 Data2Story,也被称为 Data Journalist Agent,是牛津大学和斯坦福大学研究人员基于 Claude Code 开发的一项技能,目标是把 CSV 文件直接转换成完整的交互式新闻故事。这个系统不只是做数据摘要,还会生成研究背景、统计结果、图表以及一个在线文章页面,并且让可见的每个结论都能追溯到证据。它最核心的透明度功能是 Inspector 面板,可以为每一句话、每张图表和每个交互元素显示结构化证据。研究人员表示,这样可以让 93% 的可见陈述被检查其来源,来源可以是代码、数据文件或外部链接。作者也特别说明,可追溯并不等于绝对正确,但它能让每个数字和结论更容易被审计。

为了演示这个流程,研究团队选用了一个关注度不高的数据集:2026 年 FIFA 世界杯赛程。系统根据赛程和举办城市,生成了一篇聚焦气候的报道,并附带交互式地图。其中一条结论是,大约十分之四的比赛将安排在被 FIFPRO 归类为“极高热风险”的地点,而且主要风险来自湿度而不是气温。作者强调,这些只是典型气候条件,并不是对世界杯实际比赛当天的预测。

在内部工作方式上,Data2Story 相当于一个由七个智能体组成的“虚拟新闻编辑部”。Detective 负责检索网页背景信息,Analyst 负责用代码计算数据,Editor 负责决定叙事重点,Designer 负责选择合适的呈现形式,Programmer 负责生成 HTML 页面,Auditor 负责检查版面错误,Inspector 则把所有输出重新连接到证据上。系统的基础模型是运行在 Claude Code 上的 Claude Opus 4.7,而图像、视频和音频生成则使用 OpenRouter 上的模型,例如 gpt-5.4-image-2、seedance-2.0 和 lyria-3-pro-preview。

研究人员还用 18 个公开数据集评估了这套系统,并将其与来自 The Economist、The Pudding 和 TidyTuesday 的人工写作版本进行配对比较。53 名受试读者从五个维度对两种版本打分:视觉设计、叙事节奏、数据透明度、结论可验证性以及获得洞见的程度。结果显示,Data2Story 在五个类别上全部获胜,其中透明度优势最大,在七分制上领先 1.49 分。总体上,74% 的参与者更偏好智能体生成版本,25% 更偏好人工版本,2% 认为两者打平。

不过,不同来源的对比结果并不完全一样。Data2Story 在偏数据驱动的 Economist 式简报和 TidyTuesday 作品上优势明显,但面对以精致视觉叙事著称、往往需要设计团队投入数周时间完成的 The Pudding 报道时,只是打成平手。论文还发现,智能体文章大约覆盖了人类文章中一半的陈述,而人类文章中只有 35% 的陈述出现在智能体文本里。这说明该系统并不是简单复刻既有报道,而是可能提出不同的事实选择和叙事框架。

Data2Story将CSV变成可验证新闻文章

资讯正文

数据新闻比其他许多报道领域都更耗时。一项调查就可能让一个团队忙上好几周。一个新的 AI 流水线旨在在不牺牲可验证性的前提下,自动化完成其中大部分工作。

来自牛津大学和斯坦福大学的研究人员构建了“Data Journalist Agent”(Data2Story),这是一个 Claude Code 技能,可将 CSV 文件转换为完整的交互式在线文章。输出内容包括研究背景、统计数据、图形,以及一项内置功能:将每一条可见陈述、图表和交互元素都关联到其证据来源,无论是代码、数据源还是外部 URL。该技能是一组预定义任务,Claude Code 会在接到命令后加载并运行,协调多个专门的代理角色。

作者在一个迄今报道很少的数据集上演示了这个系统:2026 年 FIFA 世界杯赛程。基于赛程和主办城市,它生成了一篇聚焦气候的文章,并配有一张交互式地图。

大约有十分之四的比赛被安排在国际职业足球运动员协会 FIFPRO 认定为极端高温风险的地点,而且主要风险驱动因素不是气温,而是湿度。作者强调,这些是典型气候条件,而不是对赛事实际天气的预测。

“Inspector” 面板让每一项主张都可追溯

该系统的核心功能是“Inspector”,这是一个面板,为每一句话和每个素材展示结构化证据。每条标注过的句子、图表和交互元素都有自己的索引卡,显示支撑该主张的精确代码行(以及其背后的数据文件)或外部 URL。

这使得所有可见陈述中有 93% 能够追溯到其来源。研究人员强调,这并不意味着它们一定正确,只是可验证而已。对某个数字存疑?运行代码即可。人类撰写文章的基线只有 25%,部分原因是记者很少公开分析代码。研究人员称,这种差距既反映了新闻实践中的空白,也体现了该系统的优势。

七个代理,一个编辑流程

每篇文章背后,都有一条由七个专门代理组成的链条,团队称之为“虚拟新闻编辑室”。“Detective” 负责进行网络搜索以补充背景,因为单靠一张表格往往无法讲完整个故事。以世界杯数据为例,它会把主办城市与 FIFPRO 的高温风险评级以及 Open-Meteo 的气候数据关联起来。

“Analyst” 通过运行代码而不是猜测数字来工作。“Editor” 负责挑选哪些发现推动叙事。“Designer” 选择合适的呈现方式,比如用地图展示地理信息,或用音频片段呈现音乐内容。“Programmer” 构建 HTML 页面,“Auditor” 检查版面是否有错误,而 “Inspector” 则把一切重新链接回来源。

基础模型是运行在 Claude Code 上的 Claude Opus 4.7。对于图像、视频和音频,系统会接入 OpenRouter 模型,例如 gpt-5.4-image-2、seedance-2.0 和 lyria-3-pro-preview。

53 名读者给代理生成的文章打分高于人类原作

研究人员将 18 个公共数据集与来自三个不同来源、由人类撰写的对应原文配对。他们使用了《经济学人》的简明简报、The Pudding 设计精美的长篇报道,以及 TidyTuesday 的社区数据集。53 名受邀读者对两个版本从五个维度进行了评分,包括视觉设计、叙事节奏、数据透明度、论点可验证性,以及获得的洞见。

Data2Story 在这五个类别中全部获胜。优势最大的是透明度,在七分制上高出 1.49 分。总体而言,74% 的人更喜欢代理生成的文章,25% 的人更喜欢人类版本,2% 的人认为两者打平。

但按来源来看,情况有所变化。该代理在数据密集型的《经济学人》简报和 TidyTuesday 文章中明显胜出。面对 The Pudding 的报道——设计团队往往要花数周时间打磨——结果则是统计学上的平局。该代理没能击败手工制作的呈现方式。

当衡量人类撰写文章中的哪些陈述也出现在代理生成的文章中时,Data2Story 覆盖了大约一半。反过来,代理的陈述中只有 35% 能在人工文本中找到。

该代理加入了不少自己的角度,但只是在一定程度上抓住了编辑核心。差距在简短、公式化的《经济学人》简报中最大,在这些文本里,代理复现了 73% 的人类发现;这很可能是因为这些文本本就紧贴标准统计口径,而这些统计本来也是代理顺手就能计算出来的。

人类仍然在哪些方面占优

研究人员指出,人类作者仍领先的领域有三项。在编辑视角上,记者能够解释数据无法说明的内容。一篇关于 Repair Cafe 的报道把低维修率追溯到手机、汽车和拖拉机制造商故意阻止人们获取诊断工具和零部件。这是建立在报道基础上的理论,而不是数据本身。代理能展示哪里出了问题,但“为什么”仍然隐藏着。

在创意设计方面,一篇关于单口喜剧的 The Pudding 文章把 Ali Wong 一场演出的完整台词整理成一个用户界面。每一行旁边都放着一个圆圈,大小与笑声持续时间成比例。对于同样的内容,代理只是嵌入了一张静态的 YouTube 缩略图。

在信息密度很高的单张图表上,《经济学人》一张关于太空竞赛的可视化把政府和商业提供方、成功率以及注释层叠在同一张图中。代理把同样的数据分散到多张图表里,结果主要观点被淹没了。

一个协作者,而不是替代者

作者将 Data2Story 定位为新闻编辑室工具。人类提供视角和报道,代理负责计算、图形,以及可由机器验证的来源。

它最有可能在新闻编辑室因人力不足而无法覆盖的议题上发挥作用,也就是那些原本不太可能变成可读故事的小众数据集。其一个局限是,Data2Story 目前仍然完全自动运行。加入人在回路反馈的版本则留待未来工作。该网站已上线,地址是 data2story.github.io,代码托管在 GitHub 上。

机器可验证性恰恰是当前 AI 系统一再出问题的地方。北京大学近期的一项基准测试发现,领先模型在文档分析中经常能给出正确答案,却引用了错误的来源。研究人员将这一问题称为“归因幻觉”。

另一项研究表明,AI 搜索代理往往根本没有真正进行研究,而主要是在确认它们从训练中已经知道的内容。Data2Story 试图弥补这一差距:它让分析师使用可运行的代码来计算数据,而不是凭猜测;同时让 Inspector 为每一句陈述都链接到其来源。Perplexity 采取了类似的做法,推出了“Search as Code”,让模型自己编写网页搜索,而不是调用一个黑箱 API。

来源与参考

  1. 原始链接
  2. Data2Story turns a CSV file into a verified interactive news article using seven AI agents

收录于 2026-06-21