即使最好的AI模型在复杂真实图表上性能也下降近一半

The Decoder··作者 Jonathan Kemper

关键信息

该基准包含来自真实Kaggle数据集的超过2800个测试用例,评估三种不同任务(复制、重现、优化),并发现像GPT-5.1这样的专有模型仍会因数据分配错误而失败。

资讯摘要

中国多所大学的研究团队开发了RealChart2Code这一大规模基准测试,用于评估14个领先AI模型在真实世界图表转代码任务中的表现。与以往使用合成或简单图表的基准不同,RealChart2Code基于真实的Kaggle数据集(约8.6亿行数据)和50种图表类型,涵盖三种任务:仅从图像生成代码、结合图像和原始数据生成代码,以及通过对话迭代修复错误代码。结果显示,即使是顶级专有模型的准确率也从约96%降至约50%,开源模型表现更差。

主要失败模式不同:开源模型常虚构不存在的库或函数,而专有模型则会错误地将数据分配到错误坐标轴。研究还发现,模型在迭代修复过程中经常破坏原本正确的代码,这种现象被称为‘退化编辑’。自动评分结果与人工判断高度一致。

即使最好的AI模型在复杂真实图表上性能也下降近一半

资讯正文

即使是表现最好的AI模型,在图表变得复杂时也会失去约一半的性能,新基准测试发现

RealChart2Code基准测试对14个领先的AI模型进行了测试,评估它们处理由真实数据集构建的复杂可视化图表的能力。即使是顶级的专有模型,在面对复杂任务时性能也比简单测试下降了近一半。

AI模型能够轻松从图像中重建简单图表,但当任务涉及基于真实数据的复杂多部分可视化时,即使是能力最强的模型也会遇到瓶颈。这是来自中国多所大学研究团队开发的新基准RealChart2Code得出的核心结论。

该基准包含超过2800个测试案例,均基于真实的Kaggle数据集构建。早期的基准如Plot2Code和ChartMimic主要依赖合成数据和简单的单图表。RealChart2Code则更进一步,引入了复杂的复合布局、50种不同的图表类型以及大量原始数据文件。研究人员从1036个精心筛选的数据集中提取了约8.6亿行数据。

三项任务,三种不同技能

RealChart2Code在三个任务上测试模型。在“图表复现”任务中,模型仅凭图像生成可视化代码;“图表再现”任务增加原始数据输入,检验模型能否从真实数据源生成正确代码;第三项任务“图表优化”模拟实际开发流程:模型获得一段错误代码后,需通过与用户的多轮对话来修复它。

根据论文描述,RealChart2Code是首个系统性评估从大型原始数据集生成代码并以对话形式进行迭代优化的基准。

专有模型领先,但仍远未达标

开源权重模型表现明显较差。表现最好的Qwen3-VL-235B和Intern-VL-3.5-241B分别只获得3.6和3.4分,不到领先专有模型得分的一半。测试中最小的模型DeepSeek-VL-7B在图表复现任务中的通过率仅为9.7%,意味着生成的代码在超过90%的情况下无法运行。

论文的核心发现被称为“复杂度差距”:在简单基准测试中表现出色的模型,在RealChart2Code上却大幅失常。例如,Gemini 3 Pro Preview在ChartMimic上的得分为96%(归一化),但在RealChart2Code上下降到约50%。对于开源模型而言,性能下滑更为严重。Qwen3-VL-235B在ChartMimic上得分为85%,但在新基准上不足25%。

开源模型虚构库,专有模型混淆数据

错误分析揭示了两种截然不同的失败模式。像Qwen3-VL和InternVL这样的开源模型通常在代码执行阶段崩溃,它们会编造不存在的库或调用无效函数。

例如,Qwen3-VL-235B大约有20%的情况会输出无效API调用,比如不存在的Matplotlib样式参数。即使代码能运行,也常出现布局问题,如子图重叠或网格结构损坏。

即使是表现最好的AI模型,在图表变得复杂时也会失去约一半的性能,新基准测试发现

专有模型如Claude 4.5和GPT-5.1很少出现语法错误。它们的弱点在于数据分配:视觉结构看起来正确,但各个数据系列却出现在错误的坐标轴上,或者视觉属性与指定内容不匹配。

迭代优化是另一个难点。研究人员描述了一种他们称之为“倒退式编辑”的模式:当模型被要求修正一个错误时,它们经常会破坏之前正确的代码部分。论文指出,即使是表现最好的模型也难以在局部修改与整体代码一致性之间取得平衡。

自动化评估与人工判断一致

为了评分,研究团队使用了一个多代理系统,从八个维度对生成的可视化图表进行三级评分,包括图表类型、空间布局、文本元素、坐标轴配置和配色方案。

自动化评估与人类专家判断的一致性达到了Cohen's Kappa系数0.83,表明两者高度相关。代理之间的共识程度则达到了Fleiss' Kappa系数0.82。

研究人员承认,该基准目前仅限于Matplotlib可视化库,且自动化评分可能无法捕捉细微的视觉瑕疵,例如元素轻微重叠或精确的颜色细节。该基准及其代码已发布在GitHub和Hugging Face上。

谷歌的PaperBanana研究项目此前就已显示,对于AI图像生成器而言,复杂的可视化是多么困难。五个专门的AI代理协作,根据文本描述生成科学图表。可视化保真度仅为45.8%,低于人类参考标准,但人类评审者仍认为其结果优于纯图像生成,占比接近73%。在统计图表方面,PaperBanana还会回退到使用Matplotlib代码生成以提升数值准确性。

来源与参考

  1. 原始链接
  2. Even the best AI models lose about half their performance when charts get complicated, new benchmark finds

收录于 2026-04-20