Data2Story将CSV变成可验证新闻文章

The Decoder·6月20日 17:51 UTC·作者 Jonathan Kemper

关键信息

作者表示，Inspector 可以为 93% 的可见陈述附上精确的代码行、数据文件或支持性 URL，从而实现可验证性，但可验证并不等于一定正确。在覆盖 18 个数据集、并与人工撰写版本对比的读者研究中，智能体生成的文章在五个评估维度上全部胜出，整体上有 74% 的参与者更偏好它们。

资讯摘要

这篇报道介绍了 Data2Story，也被称为 Data Journalist Agent，是牛津大学和斯坦福大学研究人员基于 Claude Code 开发的一项技能，目标是把 CSV 文件直接转换成完整的交互式新闻故事。这个系统不只是做数据摘要，还会生成研究背景、统计结果、图表以及一个在线文章页面，并且让可见的每个结论都能追溯到证据。它最核心的透明度功能是 Inspector 面板，可以为每一句话、每张图表和每个交互元素显示结构化证据。研究人员表示，这样可以让 93% 的可见陈述被检查其来源，来源可以是代码、数据文件或外部链接。作者也特别说明，可追溯并不等于绝对正确，但它能让每个数字和结论更容易被审计。

为了演示这个流程，研究团队选用了一个关注度不高的数据集：2026 年 FIFA 世界杯赛程。系统根据赛程和举办城市，生成了一篇聚焦气候的报道，并附带交互式地图。其中一条结论是，大约十分之四的比赛将安排在被 FIFPRO 归类为“极高热风险”的地点，而且主要风险来自湿度而不是气温。作者强调，这些只是典型气候条件，并不是对世界杯实际比赛当天的预测。

在内部工作方式上，Data2Story 相当于一个由七个智能体组成的“虚拟新闻编辑部”。Detective 负责检索网页背景信息，Analyst 负责用代码计算数据，Editor 负责决定叙事重点，Designer 负责选择合适的呈现形式，Programmer 负责生成 HTML 页面，Auditor 负责检查版面错误，Inspector 则把所有输出重新连接到证据上。系统的基础模型是运行在 Claude Code 上的 Claude Opus 4.7，而图像、视频和音频生成则使用 OpenRouter 上的模型，例如 gpt-5.4-image-2、seedance-2.0 和 lyria-3-pro-preview。

研究人员还用 18 个公开数据集评估了这套系统，并将其与来自 The Economist、The Pudding 和 TidyTuesday 的人工写作版本进行配对比较。53 名受试读者从五个维度对两种版本打分：视觉设计、叙事节奏、数据透明度、结论可验证性以及获得洞见的程度。结果显示，Data2Story 在五个类别上全部获胜，其中透明度优势最大，在七分制上领先 1.49 分。总体上，74% 的参与者更偏好智能体生成版本，25% 更偏好人工版本，2% 认为两者打平。

不过，不同来源的对比结果并不完全一样。Data2Story 在偏数据驱动的 Economist 式简报和 TidyTuesday 作品上优势明显，但面对以精致视觉叙事著称、往往需要设计团队投入数周时间完成的 The Pudding 报道时，只是打成平手。论文还发现，智能体文章大约覆盖了人类文章中一半的陈述，而人类文章中只有 35% 的陈述出现在智能体文本里。这说明该系统并不是简单复刻既有报道，而是可能提出不同的事实选择和叙事框架。

资讯正文

数据新闻比其他许多报道领域都更耗时。一项调查就可能让一个团队忙上好几周。一个新的 AI 流水线旨在在不牺牲可验证性的前提下，自动化完成其中大部分工作。

来自牛津大学和斯坦福大学的研究人员构建了“Data Journalist Agent”（Data2Story），这是一个 Claude Code 技能，可将 CSV 文件转换为完整的交互式在线文章。输出内容包括研究背景、统计数据、图形，以及一项内置功能：将每一条可见陈述、图表和交互元素都关联到其证据来源，无论是代码、数据源还是外部 URL。该技能是一组预定义任务，Claude Code 会在接到命令后加载并运行，协调多个专门的代理角色。

作者在一个迄今报道很少的数据集上演示了这个系统：2026 年 FIFA 世界杯赛程。基于赛程和主办城市，它生成了一篇聚焦气候的文章，并配有一张交互式地图。

大约有十分之四的比赛被安排在国际职业足球运动员协会 FIFPRO 认定为极端高温风险的地点，而且主要风险驱动因素不是气温，而是湿度。作者强调，这些是典型气候条件，而不是对赛事实际天气的预测。

“Inspector” 面板让每一项主张都可追溯

该系统的核心功能是“Inspector”，这是一个面板，为每一句话和每个素材展示结构化证据。每条标注过的句子、图表和交互元素都有自己的索引卡，显示支撑该主张的精确代码行（以及其背后的数据文件）或外部 URL。

这使得所有可见陈述中有 93% 能够追溯到其来源。研究人员强调，这并不意味着它们一定正确，只是可验证而已。对某个数字存疑？运行代码即可。人类撰写文章的基线只有 25%，部分原因是记者很少公开分析代码。研究人员称，这种差距既反映了新闻实践中的空白，也体现了该系统的优势。

七个代理，一个编辑流程

每篇文章背后，都有一条由七个专门代理组成的链条，团队称之为“虚拟新闻编辑室”。“Detective” 负责进行网络搜索以补充背景，因为单靠一张表格往往无法讲完整个故事。以世界杯数据为例，它会把主办城市与 FIFPRO 的高温风险评级以及 Open-Meteo 的气候数据关联起来。

“Analyst” 通过运行代码而不是猜测数字来工作。“Editor” 负责挑选哪些发现推动叙事。“Designer” 选择合适的呈现方式，比如用地图展示地理信息，或用音频片段呈现音乐内容。“Programmer” 构建 HTML 页面，“Auditor” 检查版面是否有错误，而 “Inspector” 则把一切重新链接回来源。

基础模型是运行在 Claude Code 上的 Claude Opus 4.7。对于图像、视频和音频，系统会接入 OpenRouter 模型，例如 gpt-5.4-image-2、seedance-2.0 和 lyria-3-pro-preview。

53 名读者给代理生成的文章打分高于人类原作

研究人员将 18 个公共数据集与来自三个不同来源、由人类撰写的对应原文配对。他们使用了《经济学人》的简明简报、The Pudding 设计精美的长篇报道，以及 TidyTuesday 的社区数据集。53 名受邀读者对两个版本从五个维度进行了评分，包括视觉设计、叙事节奏、数据透明度、论点可验证性，以及获得的洞见。

Data2Story 在这五个类别中全部获胜。优势最大的是透明度，在七分制上高出 1.49 分。总体而言，74% 的人更喜欢代理生成的文章，25% 的人更喜欢人类版本，2% 的人认为两者打平。

但按来源来看，情况有所变化。该代理在数据密集型的《经济学人》简报和 TidyTuesday 文章中明显胜出。面对 The Pudding 的报道——设计团队往往要花数周时间打磨——结果则是统计学上的平局。该代理没能击败手工制作的呈现方式。

当衡量人类撰写文章中的哪些陈述也出现在代理生成的文章中时，Data2Story 覆盖了大约一半。反过来，代理的陈述中只有 35% 能在人工文本中找到。

该代理加入了不少自己的角度，但只是在一定程度上抓住了编辑核心。差距在简短、公式化的《经济学人》简报中最大，在这些文本里，代理复现了 73% 的人类发现；这很可能是因为这些文本本就紧贴标准统计口径，而这些统计本来也是代理顺手就能计算出来的。

人类仍然在哪些方面占优

研究人员指出，人类作者仍领先的领域有三项。在编辑视角上，记者能够解释数据无法说明的内容。一篇关于 Repair Cafe 的报道把低维修率追溯到手机、汽车和拖拉机制造商故意阻止人们获取诊断工具和零部件。这是建立在报道基础上的理论，而不是数据本身。代理能展示哪里出了问题，但“为什么”仍然隐藏着。

在创意设计方面，一篇关于单口喜剧的 The Pudding 文章把 Ali Wong 一场演出的完整台词整理成一个用户界面。每一行旁边都放着一个圆圈，大小与笑声持续时间成比例。对于同样的内容，代理只是嵌入了一张静态的 YouTube 缩略图。

在信息密度很高的单张图表上，《经济学人》一张关于太空竞赛的可视化把政府和商业提供方、成功率以及注释层叠在同一张图中。代理把同样的数据分散到多张图表里，结果主要观点被淹没了。

一个协作者，而不是替代者

作者将 Data2Story 定位为新闻编辑室工具。人类提供视角和报道，代理负责计算、图形，以及可由机器验证的来源。

它最有可能在新闻编辑室因人力不足而无法覆盖的议题上发挥作用，也就是那些原本不太可能变成可读故事的小众数据集。其一个局限是，Data2Story 目前仍然完全自动运行。加入人在回路反馈的版本则留待未来工作。该网站已上线，地址是 data2story.github.io，代码托管在 GitHub 上。

机器可验证性恰恰是当前 AI 系统一再出问题的地方。北京大学近期的一项基准测试发现，领先模型在文档分析中经常能给出正确答案，却引用了错误的来源。研究人员将这一问题称为“归因幻觉”。

另一项研究表明，AI 搜索代理往往根本没有真正进行研究，而主要是在确认它们从训练中已经知道的内容。Data2Story 试图弥补这一差距：它让分析师使用可运行的代码来计算数据，而不是凭猜测；同时让 Inspector 为每一句陈述都链接到其来源。Perplexity 采取了类似的做法，推出了“Search as Code”，让模型自己编写网页搜索，而不是调用一个黑箱 API。

来源与参考

收录于 2026-06-21