AI使用会长期伤害学习
The Decoder··作者 Jonathan Kemper
关键信息
研究人员使用了双重差分设计,分析月考、作业和升学考试数据,并将学生开始使用AI前后的变化与尚未使用AI的学生进行比较。下降最明显的是社会科学科目,而且使用越频繁,影响越大;但那些使用AI却仍保持与非用户相近作业时间的学生,并没有出现同样的考试惩罚。
资讯摘要
中国中部一项新的研究跟踪了超过2.6万名7至12年级学生,时间跨度为30个月,旨在考察AI使用如何影响学习。数据包括月考、作业成绩、作业完成时间,以及高中和大学的高风险入学考试。研究期间,学生自报的AI使用率从接近零上升到约80%,并在 DeepSeek V2.5 于2024年9月发布、DeepSeek R1 于2025年1月发布后出现明显跃升。最常用的工具包括豆包、DeepSeek、ChatGLM、文心一言和通义千问。研究人员采用双重差分方法,把每个学生开始使用AI前后的表现变化,与尚未使用AI的学生进行比较。结果显示,在首次使用AI六个月后,作业成绩提高了18%,平均作业时间从64分钟降到45分钟,但闭卷月考成绩下降了20%。
更令人担忧的是,常规考试成绩在大约半年内就开始下滑,而升学考试上的完整影响直到大约两年后才显现,降幅达到18%到24%。作者认为,短期研究会漏掉这种延迟出现的学习损失。研究还发现,使用AI超过五个月的学生中,约81%能在50分钟内完成作业,但考试表现很差,这表明他们可能把作业外包给了AI。相比之下,那些使用AI但作业时间与非用户相近的学生,考试成绩并没有变差,同时作业成绩还更好,说明AI并非天然有害,关键在于它是辅助思考还是取代思考。负面影响在社会科学科目中最明显,其次是STEM、英语和语文;年龄更小的学生、男生、成绩前列的学生以及重度使用者通常受影响更大。

资讯正文
一项涉及2.6万名学生的研究显示,AI的隐性学习成本要过整整两年才会显现
使用AI的学生完成作业更快,成绩也更好。但在考试中,他们的分数却下降了多达24%,而入学考试上学习差距的全部规模,直到大约两年后才显现出来。
一项来自中国中部的新研究记录了使用AI的中学生所遭受的学习损失。研究人员分析了一个拥有超过100万居民的县中,26,000多名七至十二年级学生30个月的面板数据。这些数据涵盖了月考、作业成绩和完成时间,以及高中和大学入学考试等高风险考试。
在研究期间,自报使用AI的比例从接近零上升到约80%,其中一次显著跃升与DeepSeek V2.5于2024年9月发布、以及DeepSeek R1于2025年1月发布相吻合。最受欢迎的工具是豆包、DeepSeek、ChatGLM、文心一言和Qwen。
这项研究利用了学生在不同时间自行发现AI这一事实。作者采用了双重差分设计,这是一种衡量处理组在干预前后结果变化、并减去对照组同期变化的方法。
在这里,他们追踪每名学生在开始使用AI前后成绩的变化,再与尚未使用AI的学生的趋势进行对比。首次使用的时间来自自报数据,而这一因果主张假定,如果没有AI,两组学生本来会沿着相似轨迹发展。
作业更好,考试更差
首次使用AI六个月后,作业成绩上升了18%,而每项作业的平均用时从64分钟降至45分钟。与此同时,月度闭卷考试成绩下降了20%。
对高风险入学考试的影响同样显著,但累积得更慢。常规考试成绩在半年内就开始下滑,但入学考试的全部影响大约两年后才出现,降幅在18%到24%之间。因此,研究人员指出,短期研究会错过学习成本的长期影响。
五分之四的长期用户显示出“外包”迹象
在使用AI超过五个月后,大约81%的学生能在50分钟内完成作业,速度甚至快于最快的非用户。他们作业分数很高,但考试表现糟糕。作者写道,较短的完成时间、较高的作业成绩以及较低的考试分数组合在一起,表明这些学生把作业外包给了AI。
另一方面,与不使用AI的同学花费相近作业时间的AI用户,考试成绩同样出色,同时还能拿到更好的作业分数。这一组并未显示出基于既往表现的正向选择迹象,也就是说,他们并不是一开始就更优秀的学生,而AI本身也并非天生有害。它主要在取代独立思考时才会造成伤害。
社会科学受冲击最大
社会科学类学科,如政治和地理,平均下降了27%;STEM学科下降了22%;英语下降了17%;中文下降了9%。这很重要,因为此前大多数实验都集中在数学、编程和外语上。
这种影响在不同学生群体之间也存在明显差异。初中阶段的低龄学生损失大于高年级学生(24%对17%),男生受影响也比女生更严重(21.6%对18.4%);研究将这主要归因于男生更频繁地使用AI。
成绩最好的学生受到的冲击最大,排名前三分之一的学生出现了负24%的影响,而后三分之一则为负16%。研究还显示出明显的剂量反应模式。每周使用AI不超过一小时的学生约损失5%,而每周使用五小时或以上的学生则损失30%。
为什么几乎没人站出来反对
估算出的学习损失从2023年初的约25%下降到2025年6月的16%。在一组固定的早期采用者身上,这一下降趋势同样存在,说明学生和教师在某种程度上已经开始适应,但这些损失并没有消失。
研究解释了为什么外界反应一直不温不火。教师通常只看到学生在一门学科中的表现,而20%的成绩下滑单独来看并不罕见。直到2025年6月,县级平均层面的累计影响才达到约负10%,因为当时几乎没有学生使用AI的时间足够长,损害还没有充分累积。学生自己也常常没有把这些现象联系起来,会把独立学习带来的脑力消耗误认为自己学得不好。
作为应对措施,研究建议向学生提供关于外包学习长期成本的可靠信息,更重视线下考试,并用完成时间而不是作业成绩来进行追踪。AI正在削弱作业作为信号的价值,而在AI用户中,那些作业成绩高于平均水平的学生,作业分数越高,实际考试成绩反而越差。
Anthropic研究员Andrej Karpathy曾主张,学校不应再试图监管AI生成的作业,而应把大部分评分转向课堂内完成的任务。他的理由与这项研究的发现一致。当学生知道考试时不能使用AI,他们就会保持动力,真正去学习材料。
这一模式也与其他场景中的最新发现相吻合。Anthropic最近的一项研究显示,借助AI学习新编程技能的参与者,在后续知识测试中的得分比对照组低17%,而且并没有节省任何实际时间。结果取决于人们如何使用工具。那些只是照抄AI答案的人表现更差,而那些利用AI更好理解任务的人则没有出现同样的下降。
Swiss Business School的一项研究发现,AI使用与批判性思维之间存在负相关。另一项由多所美国和英国大学研究人员开展的研究表明,把AI主要当作答案机器的人,认知能力下降得最快。
一项 UC Berkeley 研究分析了超过 500,000 份成绩单,也显示自 ChatGPT 上线以来,写作和编程类课程中最高 A 级成绩的占比上升了 13 个百分点。同样,这种影响也主要集中在无人监考的家庭作业上,而受监考的考试并没有出现可比的增长。
来源与参考
收录于 2026-07-05