AI使用会长期伤害学习

The Decoder·7月4日 17:08 UTC·作者 Jonathan Kemper

关键信息

研究人员使用了双重差分设计，分析月考、作业和升学考试数据，并将学生开始使用AI前后的变化与尚未使用AI的学生进行比较。下降最明显的是社会科学科目，而且使用越频繁，影响越大；但那些使用AI却仍保持与非用户相近作业时间的学生，并没有出现同样的考试惩罚。

资讯摘要

中国中部一项新的研究跟踪了超过2.6万名7至12年级学生，时间跨度为30个月，旨在考察AI使用如何影响学习。数据包括月考、作业成绩、作业完成时间，以及高中和大学的高风险入学考试。研究期间，学生自报的AI使用率从接近零上升到约80%，并在 DeepSeek V2.5 于2024年9月发布、DeepSeek R1 于2025年1月发布后出现明显跃升。最常用的工具包括豆包、DeepSeek、ChatGLM、文心一言和通义千问。研究人员采用双重差分方法，把每个学生开始使用AI前后的表现变化，与尚未使用AI的学生进行比较。结果显示，在首次使用AI六个月后，作业成绩提高了18%，平均作业时间从64分钟降到45分钟，但闭卷月考成绩下降了20%。

更令人担忧的是，常规考试成绩在大约半年内就开始下滑，而升学考试上的完整影响直到大约两年后才显现，降幅达到18%到24%。作者认为，短期研究会漏掉这种延迟出现的学习损失。研究还发现，使用AI超过五个月的学生中，约81%能在50分钟内完成作业，但考试表现很差，这表明他们可能把作业外包给了AI。相比之下，那些使用AI但作业时间与非用户相近的学生，考试成绩并没有变差，同时作业成绩还更好，说明AI并非天然有害，关键在于它是辅助思考还是取代思考。负面影响在社会科学科目中最明显，其次是STEM、英语和语文；年龄更小的学生、男生、成绩前列的学生以及重度使用者通常受影响更大。

资讯正文

一项涉及2.6万名学生的研究显示，AI的隐性学习成本要过整整两年才会显现

使用AI的学生完成作业更快，成绩也更好。但在考试中，他们的分数却下降了多达24%，而入学考试上学习差距的全部规模，直到大约两年后才显现出来。

一项来自中国中部的新研究记录了使用AI的中学生所遭受的学习损失。研究人员分析了一个拥有超过100万居民的县中，26,000多名七至十二年级学生30个月的面板数据。这些数据涵盖了月考、作业成绩和完成时间，以及高中和大学入学考试等高风险考试。

在研究期间，自报使用AI的比例从接近零上升到约80%，其中一次显著跃升与DeepSeek V2.5于2024年9月发布、以及DeepSeek R1于2025年1月发布相吻合。最受欢迎的工具是豆包、DeepSeek、ChatGLM、文心一言和Qwen。

这项研究利用了学生在不同时间自行发现AI这一事实。作者采用了双重差分设计，这是一种衡量处理组在干预前后结果变化、并减去对照组同期变化的方法。

在这里，他们追踪每名学生在开始使用AI前后成绩的变化，再与尚未使用AI的学生的趋势进行对比。首次使用的时间来自自报数据，而这一因果主张假定，如果没有AI，两组学生本来会沿着相似轨迹发展。

作业更好，考试更差

首次使用AI六个月后，作业成绩上升了18%，而每项作业的平均用时从64分钟降至45分钟。与此同时，月度闭卷考试成绩下降了20%。

对高风险入学考试的影响同样显著，但累积得更慢。常规考试成绩在半年内就开始下滑，但入学考试的全部影响大约两年后才出现，降幅在18%到24%之间。因此，研究人员指出，短期研究会错过学习成本的长期影响。

五分之四的长期用户显示出“外包”迹象

在使用AI超过五个月后，大约81%的学生能在50分钟内完成作业，速度甚至快于最快的非用户。他们作业分数很高，但考试表现糟糕。作者写道，较短的完成时间、较高的作业成绩以及较低的考试分数组合在一起，表明这些学生把作业外包给了AI。

另一方面，与不使用AI的同学花费相近作业时间的AI用户，考试成绩同样出色，同时还能拿到更好的作业分数。这一组并未显示出基于既往表现的正向选择迹象，也就是说，他们并不是一开始就更优秀的学生，而AI本身也并非天生有害。它主要在取代独立思考时才会造成伤害。

社会科学受冲击最大

社会科学类学科，如政治和地理，平均下降了27%；STEM学科下降了22%；英语下降了17%；中文下降了9%。这很重要，因为此前大多数实验都集中在数学、编程和外语上。

这种影响在不同学生群体之间也存在明显差异。初中阶段的低龄学生损失大于高年级学生（24%对17%），男生受影响也比女生更严重（21.6%对18.4%）；研究将这主要归因于男生更频繁地使用AI。

成绩最好的学生受到的冲击最大，排名前三分之一的学生出现了负24%的影响，而后三分之一则为负16%。研究还显示出明显的剂量反应模式。每周使用AI不超过一小时的学生约损失5%，而每周使用五小时或以上的学生则损失30%。

为什么几乎没人站出来反对

估算出的学习损失从2023年初的约25%下降到2025年6月的16%。在一组固定的早期采用者身上，这一下降趋势同样存在，说明学生和教师在某种程度上已经开始适应，但这些损失并没有消失。

研究解释了为什么外界反应一直不温不火。教师通常只看到学生在一门学科中的表现，而20%的成绩下滑单独来看并不罕见。直到2025年6月，县级平均层面的累计影响才达到约负10%，因为当时几乎没有学生使用AI的时间足够长，损害还没有充分累积。学生自己也常常没有把这些现象联系起来，会把独立学习带来的脑力消耗误认为自己学得不好。

作为应对措施，研究建议向学生提供关于外包学习长期成本的可靠信息，更重视线下考试，并用完成时间而不是作业成绩来进行追踪。AI正在削弱作业作为信号的价值，而在AI用户中，那些作业成绩高于平均水平的学生，作业分数越高，实际考试成绩反而越差。

Anthropic研究员Andrej Karpathy曾主张，学校不应再试图监管AI生成的作业，而应把大部分评分转向课堂内完成的任务。他的理由与这项研究的发现一致。当学生知道考试时不能使用AI，他们就会保持动力，真正去学习材料。

这一模式也与其他场景中的最新发现相吻合。Anthropic最近的一项研究显示，借助AI学习新编程技能的参与者，在后续知识测试中的得分比对照组低17%，而且并没有节省任何实际时间。结果取决于人们如何使用工具。那些只是照抄AI答案的人表现更差，而那些利用AI更好理解任务的人则没有出现同样的下降。

Swiss Business School的一项研究发现，AI使用与批判性思维之间存在负相关。另一项由多所美国和英国大学研究人员开展的研究表明，把AI主要当作答案机器的人，认知能力下降得最快。

一项 UC Berkeley 研究分析了超过 500,000 份成绩单，也显示自 ChatGPT 上线以来，写作和编程类课程中最高 A 级成绩的占比上升了 13 个百分点。同样，这种影响也主要集中在无人监考的家庭作业上，而受监考的考试并没有出现可比的增长。

来源与参考

收录于 2026-07-05