仅用10分钟AI就削弱解决问题能力
The Decoder··作者 Jonathan Kemper
关键信息
使用AI直接获取答案的用户受影响最严重——他们在AI被移除后表现比对照组还差,且跳过的问题更多。
资讯摘要
美国和英国大学的研究人员进行了两项受控实验,发现仅10到15分钟的AI辅助解题会导致后续无AI任务中表现更差、坚持度更低。在一项实验中,使用GPT-5解答分数问题的参与者在AI突然被移除后得分更低、跳过更多题目。第二项实验在阅读理解任务中也验证了这一模式。
影响最大的是那些只依赖AI直接答案而非提示或解释的用户。这些发现表明,短期AI辅助可能造成‘依赖惯性’,损害长期的认知韧性。

资讯正文
一项新研究发现,仅用AI作为答案机器十分钟,就能明显削弱解决问题的能力。
美国和英国研究人员的新研究表明,只需10到15分钟使用AI助手,就会显著削弱用户在后续无需AI的任务中解决问题的能力和坚持性。
这项由多家美英大学团队开展的研究显示,虽然AI辅助能提升即时表现,但代价是:一旦移除AI,使用者的表现会比从一开始就独立完成任务的人更差,而且更容易放弃。
研究人员指出,此前关于这些效应的证据大多来自调查或小样本数据。这是首个通过受控实验得出的大规模因果证据。
分数问题揭示了依赖AI的“拐杖效应”
在第一项实验中,参与者完成了15道分数题,难度从简单的一步计算到复杂的三步任务不等。一组参与者可在侧边栏中使用GPT-5,该模型已预加载每道题目及其解答。
这意味着参与者几乎无需努力就能获得正确答案——只需输入“Answer?”即可。对照组则完全没有任何工具。在完成12道题后,AI被突然移除,所有人随后独立解决三道相同测试题。
在这些测试题中,曾使用过AI的参与者得分明显低于对照组,且跳过题目次数几乎是对照组的两倍。由于错误答案不会受到惩罚,绩效也不影响报酬,研究人员将跳过视为坚持性和动机的直接衡量指标。
第二项实验验证了这一模式
后续实验纠正了第一个实验的方法缺陷:在第一次试验中,AI组中能力较弱的参与者可以通过AI提交正确答案,这使得他们未像对照组一样受到相同筛选标准的检验。
这次,实验增加了前置测试,包含简单分数题,并为对照组提供带有前置测试答案的侧边栏,以匹配AI组的界面。
结果依然成立:AI组在无辅助测试中的表现再次落后于对照组。更高的跳过率也指向同一方向,尽管整体上未达到统计显著性。研究人员指出,人们实际使用AI的方式差异可能是原因所在。
直接获取答案的用户付出最大代价
约61%的AI使用者表示他们主要向助手索要直接答案;四分之一的人用于获取提示或解释;其余人则基本未使用AI。在前置测试中,这几组在解题率和跳过率方面表现一致,基础能力和动机水平也相当。
一项新研究发现,仅使用AI作为答案机器十分钟,就可能显著削弱解决问题的能力。
在移除AI后,结果发生了急剧变化。依赖直接答案的参与者表现最差,而完全忽略AI的参与者解题率最高,甚至高于对照组。直接答案使用者的表现还比他们自己的前测分数有所下降,而其他组则保持稳定或有所提高。数据表明,负面影响主要集中在那些将思考过程外包的用户身上。
同样的模式也出现在阅读理解中。
为了检验这种影响是否仅限于数学,研究人员用美国SAT考试中的阅读理解材料重复了相同实验设计。在此实验中,对照组获得一个侧边栏,提供一般性考试技巧,以模拟学习与测试阶段之间的场景切换。团队还将五秒内给出的答案计为跳过,因为文章无法在这么短时间内读完。
结果与数学实验一致:使用AI的小组在无辅助测试中答对的问题更少,并且明显跳过了更多题目。研究人员指出,坚持度下降是AI辅助解决问题带来的普遍副作用,即使是在与批判性思维紧密相关的任务上也是如此。
两种机制,一个结构性问题。
这项研究指出了导致坚持力下降的两个解释。第一,AI改变了人们对任务难度的参考标准。没有帮助的情况下工作会感觉更困难,就像你习惯了任何便利之后一样。这一机制具有自我强化性:每一次捷径都会提高下次自己动手完成任务时的心理成本。
第二,用户错过了构建知识和建立真实自我能力认知所必需的“有益挣扎”。
研究人员将他们的发现与关于技能逐步退化的更广泛讨论联系起来。他们指出,那些优化为即时有用的AI系统可能会削弱用户的长期能力。分数和阅读理解看似容易委托出去,但实际上它们是更高层次技能(如代数和批判性思维)的基础。
资源较少的学生尤其面临风险。如果仅仅10分钟的使用就能产生可测量的影响,研究人员警告称,这些后果可能在数月甚至数年内累积,并变得难以逆转。
他们认为,像苏格拉底式AI或使用限制这样的用户端修复措施只是“创可贴”式的权宜之计。真正需要的是重新思考这些系统的构建方式,从短期用户满意度转向能促进自主性、有时甚至主动 withhold 帮助的设计。
越来越多的证据指向AI的认知代价。
早期研究也指向同一方向,尽管方法较弱。瑞士商学院的一项研究发现,AI使用与批判性思维之间存在强烈负相关,其中17至25岁的参与者受影响最为明显。高等教育起到了保护作用:受教育程度更高的群体更常质疑AI生成的信息,并进行更深入的分析。
微软研究院与卡内基梅隆大学联合开展的一项研究描述了一种“自动化悖论”:通过处理常规工作,AI工具剥夺了用户锻炼其“认知肌肉”的机会。对于常规或低风险任务,用户往往直接依赖AI。
一项新研究发现,仅用十分钟让人工智能充当答案机器,就能显著削弱解决问题的能力。
Anthropic公司对52名主要是初级软件开发人员的研究也表明,AI辅助可能损害学习新编程技能的效果。参与者被要求使用不熟悉的Trio库完成两项任务。一组人可以使用基于GPT-4o的助手;对照组则只能依靠文档和网络搜索。
在后续的知识测试中,使用AI的一组得分低了17%。再次说明,人们如何使用工具至关重要:那些请求解释的人比单纯把工作交给AI的人学得更好。
使用经验也很重要。在另一项Anthropic研究中,熟练使用Claude的用户在相同任务上的成功率比新手高出约四个百分点。他们与模型进行迭代式协作,而不是仅仅发出指令。
其他研究表明,人工智能可以提升个人和团队的表现。但许多公司仍难以将这些孤立的生产率提升转化为真正的效率改进或收入增长,原因有很多。
来源与参考
收录于 2026-04-19