AI 教育收益与代价同时被看见
长达 30 个月的研究显示,AI 让作业更快、作业分数更高,但也与显著考试分数下降相关,且完整影响要过两年才显现。[2940]
AI 日报
今天的 AI 新闻主线很清晰:模型能力继续扩张,但真实成本、合规边界和长期影响也在同步浮现。教育研究提醒我们短期效率可能掩盖长期损失;与此同时,开源形式推理、企业部署和药物研发等方向都在加速落地。
Overview
从 16 条资讯中筛选出 9 条
今天的 AI 新闻主线很清晰:模型能力继续扩张,但真实成本、合规边界和长期影响也在同步浮现。教育研究提醒我们短期效率可能掩盖长期损失;与此同时,开源形式推理、企业部署和药物研发等方向都在加速落地。
长达 30 个月的研究显示,AI 让作业更快、作业分数更高,但也与显著考试分数下降相关,且完整影响要过两年才显现。[2940]
Leanstral 1.5 在数学基准上表现突出,并被称能在开源仓库中发现此前未知漏洞,显示开源推理能力正在向更严肃的验证任务延伸。[2938]
Current AI 的 Gap Map 用结构化数据整理了数百个项目与大量未分类工件,为研究和工具开发提供了可复用索引。[2942]
Midjourney 要求好莱坞片厂披露更广泛的 AI 使用情况,可能影响这起版权案中证据开示的边界与后续论证。[2943]
阿里巴巴据报将禁用 Claude Code,反映出大型企业对外部 AI 工具的使用正在被合规、风控与供应商限制重新塑形。[2939]
Anthropic 进入被忽视疾病药物发现,布罗克曼则描绘“几乎没有界面”的未来,两者都指向 AI 更深地嵌入专业流程与组织系统。[2947, 2948, 2945, 2946]
AI 正在从“能做什么”转向“代价是什么、谁能用、如何落地”。一边是更强的开源推理与工具化能力,一边是教育、版权、访问控制和企业部署带来的新约束。2940 2938 2943 2939
中国中部这项长期研究的核心结论是:AI 可能在作业层面制造一种“看起来更好”的幻觉,但闭卷考试和高风险考试才更能暴露真实学习情况。研究还指出,使用越频繁,影响越大;但如果学生使用 AI 仍保持接近非用户的作业时间,考试惩罚就没有那么明显,说明关键差别不在工具本身,而在是否把思考外包出去。2940
Mistral 的 Leanstral 1.5 不只是又一个模型发布,而是把开源模型能力推进到形式验证和找 Bug 这类更严格的任务上。对软件工程和数学研究来说,这意味着 AI 正从“会回答”走向“能证明、能检查”。2938
Current AI 的 Gap Map 把分散的开源 AI 生态变成可搜索、可引用的结构化资源。对研究者、产品团队和工具构建者来说,这比单纯的新闻列表更有长期价值,因为它能帮助识别空白、重复建设和技术栈分布。2942
Midjourney 要求迪士尼、环球和华纳兄弟披露更多自身 AI 使用细节,说明这场版权战已经进入更深的证据和行业惯例争夺。2943 与此同时,阿里巴巴据报将禁止员工使用 Claude Code,折射出 AI 工具可用性正越来越受地缘政治、合规和供应商风控影响。2939
Mistral 被重新解读为更偏主权 AI 和企业落地的公司,而不是单纯的模型竞赛对手;OpenAI 联合创始人布罗克曼则进一步把未来想象为“几乎没有界面”的代理式工作流。2945 2948 这两条线共同说明,下一阶段竞争不只是模型分数,而是谁能把 AI 可靠地嵌入组织、基础设施和日常工作。
Anthropic 宣布进入被忽视疾病的药物发现,显示大型 AI 实验室正更直接地介入高门槛、高周期行业。2947 另一边,pxpipe 这种把文本塞进 PNG 来压低 Claude 成本的工具,则提醒我们:AI 工作流的创新不仅发生在模型内部,也发生在计费、上下文和代理编排这些细节上。2946
今天的九条故事共同指向一个判断:AI 的竞争已经从“性能曲线”扩展到“制度曲线”和“部署曲线”。谁能证明长期价值、控制真实风险、并把工具以可持续的方式接入现实世界,谁才更可能在下一阶段胜出。2940 2938 2943 2947
Stories
The Decoder

一项为期30个月、覆盖中国中部超过2.6万名中学生的研究发现,使用AI虽然能让学生更快完成作业并提高作业成绩,但也与明显的考试分数下降有关。高风险入学考试上的完整差距直到学生开始使用AI大约两年后才完全显现出来。
这项研究表明,AI 在教育中的代价可能是隐性的:作业完成更快、短期成绩更好,但独立学习能力可能被削弱。这对学校、家长和政策制定者都很重要,因为短期研究可能看不到那些要到关键考试前后才显现的损失。
中国中部一项新的研究跟踪了超过2.6万名7至12年级学生,时间跨度为30个月,旨在考察AI使用如何影响学习。数据包括月考、作业成绩、作业完成时间,以及高中和大学的高风险入学考试。研究期间,学生自报的AI使用率从接近零上升到约80%,并在 DeepSeek V2.5 于2024年9月发布、DeepSeek R1 于2025年1月发布后出现明显跃升。最常用的工具包括豆包、DeepSeek、ChatGLM、文心一言和通义千问。研究人员采用双重差分方法,把每个学生开始使用AI前后的表现变化,与尚未使用AI的学生进行比较。结果显示,在首次使用AI六个月后,作业成绩提高了18%,平均作业时间从64分钟降到45分钟,但闭卷月考成绩下降了20%。
更令人担忧的是,常规考试成绩在大约半年内就开始下滑,而升学考试上的完整影响直到大约两年后才显现,降幅达到18%到24%。作者认为,短期研究会漏掉这种延迟出现的学习损失。研究还发现,使用AI超过五个月的学生中,约81%能在50分钟内完成作业,但考试表现很差,这表明他们可能把作业外包给了AI。相比之下,那些使用AI但作业时间与非用户相近的学生,考试成绩并没有变差,同时作业成绩还更好,说明AI并非天然有害,关键在于它是辅助思考还是取代思考。负面影响在社会科学科目中最明显,其次是STEM、英语和语文;年龄更小的学生、男生、成绩前列的学生以及重度使用者通常受影响更大。
研究人员使用了双重差分设计,分析月考、作业和升学考试数据,并将学生开始使用AI前后的变化与尚未使用AI的学生进行比较。下降最明显的是社会科学科目,而且使用越频繁,影响越大;但那些使用AI却仍保持与非用户相近作业时间的学生,并没有出现同样的考试惩罚。
The Decoder

Mistral AI 发布了 Leanstral 1.5,这是一个基于 Lean 4、采用 Apache 2.0 许可的开源形式验证模型。该公司称它在 miniF2F 上达到 100%,在 PutnamBench 的 672 道题中解出 587 道,并在 FATE-H 和 FATE-X 代数基准上取得了领先成绩。
这次发布表明,开源模型在形式化推理方面正在变得更强,而这一领域对数学证明和软件正确性检查都很重要。若这些结果能在更广泛场景中得到验证,它可能帮助研究人员和开发者更早发现错误,并自动化部分验证工作。
Mistral AI 发布了 Leanstral 1.5,这是一款用于 Lean 4 形式验证的免费开源模型。Lean 4 主要用于正式验证数学证明和软件正确性,因此这款模型的目标不是生成开放式文本,而是执行需要严格逻辑推理的任务。Mistral 表示,该模型在 miniF2F 基准上达到 100%,这个基准覆盖了从高中水平到数学奥林匹克难度的问题。它还在 PutnamBench 上解出了 672 道题中的 587 道,而 PutnamBench 基于 Putnam 数学竞赛题目。
对于 FATE-H 和 FATE-X 这两个代数基准,Mistral 称 Leanstral 1.5 分别取得了 87% 和 34% 的领先成绩,这些任务涉及群论、环论等研究生到博士级内容。除了数学能力之外,该公司还表示,这个模型也能帮助进行代码验证。在一次实测中,它检查了 57 个开源仓库,并发现了 5 个此前未知的漏洞,其中包括 Rust 库 varinteger 的一个溢出问题。Mistral 还表示,该模型可通过 Hugging Face 和免费 API 使用,其训练流程包含中期训练、监督微调和强化学习。
Mistral 表示,Leanstral 1.5 主要通过中期训练、监督微调和强化学习来训练数学能力。在一次实测中,它扫描了 57 个开源仓库,并据称发现了 5 个此前未知的漏洞,其中包括 Rust 库 varinteger 中的一个溢出问题。
Simon Willison
Current AI 发布了 Open Source AI Gap Map v0.1,这是一个可检索的开源 AI 生态索引。首个版本深入收录了 421 个产品,包括 266 个软件工具和库、85 个模型、50 个数据集以及 20 个硬件项目。
这个项目为快速变化的开源 AI 生态提供了结构化视图,方便人们查找项目、比较覆盖范围并识别空白领域。由于它不仅是一个网站,而是以数据形式发布,因此也可被用于研究、分析和工具构建。
Current AI 推出了 Open Source AI Gap Map v0.1,把它描述为开源 AI 生态的一个“活的”可视化地图。该组织自称是一个“为 AI 建立公共选项”的全球合作项目,并表示自己于 2025 年 2 月在巴黎的 AI Action Summit 上以非营利形式成立。它还称目前已经获得了 4 亿美元的承诺资金。根据发布说明,地图的首个版本深入收录了 421 个产品,覆盖 266 个软件工具和库、85 个模型、50 个数据集以及 20 个硬件项目。 这些产品来自 228 个组织,并被归入 14 个类别,横跨技术栈的三层:模型组件、产品 / UX 和基础设施。
项目同时指出,另外 24,400 个工件仍属于未分类的长尾部分,在完成研究和引用之前不会获得评分。Simon Willison 认为地图本身很值得浏览,但更令人兴奋的是其背后的开放数据。相关数据以 MIT 许可证发布在 GitHub 仓库中,包含 1,184 个 YAML 文件,以及用于整理数据的 notebooks、schemas 和脚本。Willison 还提到,可以用 Datasette Lite 直接探索这些数据,其中包括一个列出 16,185 个 GitHub 仓库的 CSV 文件。
Current AI 表示,该地图把产品分成 14 个类别,并覆盖三层技术栈:模型组件、产品/UX 和基础设施。它还指出,另有 24,400 个工件仍未分类,在完成研究和引用之前不会获得评分。
TechCrunch AI

Midjourney 已请求法院强制迪士尼、环球和华纳兄弟披露其在自身业务中如何使用 AI 的更多细节。这一请求属于持续进行中的版权诉讼的一部分,三家片厂指控 Midjourney 在未经授权的情况下训练并生成受版权保护的角色。
这项动议可能影响这起重大 AI 版权案件中双方必须提交哪些证据,尤其涉及片厂自身是否也在使用类似的 AI 工作流。如果法院扩大证据披露范围,此案可能会影响未来生成式 AI 争议中对合理使用和行业惯例的论证方式。
Midjourney 正在与迪士尼、环球和华纳兄弟的版权战中反击,要求这些片厂披露更多关于自身 AI 使用情况的信息。去年,片厂起诉 Midjourney,称其图像生成模型能够生成 Bart Simpson、Darth Vader 等受版权保护的角色。几个月后,华纳兄弟也加入了诉讼。Midjourney 则主张,用受版权保护的图像训练模型属于合理使用,从而把争议推向更广泛的生成式 AI 训练合法性问题。当前争论的重点是证据开示阶段,也就是双方需要交换证据和文件的程序。
此前,法官裁定片厂只需提供与面向消费者的视频和图片相关的生成式 AI 使用信息。Midjourney 在最新提交的文件中表示,这一限制不公平,因为它让片厂只挑选有利于其“市场损害”主张的文件,却扣留可能支持 Midjourney 辩护的材料。Midjourney 认为,这些被扣留的文件可能显示,片厂在幕后也在做自己起诉 Midjourney 所称的事情,包括为分镜或电影、电视剧创意开发内部 AI 工具。Midjourney 还要求片厂披露他们在 Midjourney 中使用过的全部提示词以及对应输出,而不只是那些被指侵权的案例。片厂首席律师 David Singer 则称这一请求是“钓鱼式探查”,并表示片厂并不想阻止 AI 技术发展,只是希望 Midjourney 停止未经授权复制他们的电影、电视节目和知名角色。
此前法院裁定,片厂只需提供与面向消费者的视频和图片相关的生成式 AI 使用信息,而 Midjourney 现在试图取消这一限制。Midjourney 还要求片厂披露他们在 Midjourney 中输入的全部提示词及对应输出,而不只是那些据称侵权图像相关的提示词。
TechCrunch AI

据报,阿里巴巴将从7月10日起禁止员工使用 Anthropic 的 Claude Code。此举发生在 Anthropic 加强访问控制、并努力阻止中国用户和公司访问其模型的背景下。
这说明 AI 访问限制正在直接影响大型公司能使用哪些工具,尤其是在中国科技市场。它也凸显了厂商如何应对模型滥用、转售滥用以及地缘政治合规问题。
据报,阿里巴巴将从7月10日起禁止员工使用 Anthropic 的编程工具 Claude Code。报道说,阿里巴巴已将这款工具列为高风险软件,并要求员工改用公司自家的 Qoder 产品。这个决定发生在 Anthropic 持续收紧其模型在中国的访问权限之际。Anthropic 早已禁止中国公司以及由这些公司拥有的外国实体使用其模型。与此同时,Anthropic 也被报道在努力关闭那些允许中国用户访问 Claude 的漏洞。
近期一条 Reddit 帖子称,其中一项措施涉及一个能够秘密识别中国用户的 Claude Code 版本。Anthropic 的 Thariq Shihipar 在 X 上表示,这只是一个于3月推出的实验,目的是防止未经授权的转售商滥用,并防范蒸馏。蒸馏指的是用一个大模型的输出来训练另一个模型。Shihipar 还说,团队后来已经上线了更强的缓解措施,并且原本就打算把这个实验下线。整篇报道将阿里巴巴的禁用决定放在更广泛的 AI 访问控制、执法和企业软件政策博弈中来解读。
据报,阿里巴巴已将 Claude Code 归类为高风险软件,并要求员工改用自家的 Qoder 工具。Anthropic 表示,近期的 Claude Code 实验是为了防止未经授权的转售滥用并防范蒸馏,且此后已经部署了更强的缓解措施。
TechCrunch AI

TechCrunch 的这篇解读把 Mistral AI 重新定义为不只是“欧洲版 OpenAI”,而是更强调主权 AI 和企业落地策略的公司。文章指出,这家法国公司越来越像 Palantir 那样运作,派遣前线工程师帮助政府和大型企业部署 AI。
Mistral 的路线之所以重要,是因为它反映出 AI 正在从集中式模型服务,转向可在客户基础设施上部署、由本地控制、并适配监管或国家安全敏感场景的系统。这种定位可能让 Mistral 对希望减少对美国前沿实验室依赖的政府和企业更具吸引力。
TechCrunch 认为,在地缘政治压力和“主权 AI”需求升温的背景下,Mistral AI 正获得越来越多关注,尤其是在一项特朗普相关指令据称促使 Anthropic 将其最新模型下线之后。文章指出,Mistral 常常被误解为“欧洲版 OpenAI”,但它真正的优势可能在于企业和政府部署。它面向消费者的聊天和智能体产品 Vibe(原名 Le Chat)品牌影响力远不如 ChatGPT,甚至在巴黎 Station F 的一些创业者中,Claude 的受欢迎程度也高于 Mistral 的模型。相较于单纯比拼模型能力,Mistral 更像是在复制 Palantir 的打法,通过前线工程师帮助大型机构把 AI 改造到自己的工作流中。
公司业务增长很快,Mistral 在 2 月披露其年度经常性收入已超过 4 亿美元,而一年前只有 2000 万美元,并声称今年有望突破 10 亿美元 ARR。文章还提到,Mistral 传闻正在以 231.5 亿美元估值融资约 35 亿美元,估值几乎翻倍。CEO Arthur Mensch 公开解释说,公司把模型和智能体平台部署在客户自己的基础设施上,并通过 Forge 帮助客户使用自己的数据训练定制模型。与此同时,Mistral 仍然有更大的研究野心,包括追赶基础模型竞争对手、在夏季推出新的开源权重模型,以及在法国和瑞典建设数据中心等 AI 基础设施投资。
Arthur Mensch 表示,Mistral 的模型和智能体平台正被部署在企业自己的基础设施上,而 Forge 平台允许客户使用自己的数据训练定制模型。公司承认自己尚未拥有最强的语言模型,但差距正在缩小,并计划在夏季推出一个开源权重模型,7 月开放早期访问。
The Decoder

pxpipe 是一个开源本地代理,它把大段、且大多静态的 Claude Code 上下文转换成 PNG 图片,从而让 Anthropic 按图片而不是按文本计费。报道称,这种方法最多可将输入 token 成本降低 70%,其中一个 Fable 5 演示把会话费用从 42.21 美元降到 6.06 美元。
这是一种面向 Claude Code 和类似智能体工作流的实用提示压缩方案,尤其适合系统提示、工具文档和长历史记录占据大量上下文的场景。若被广泛采用,它可能促使 AI 提供商重新考虑图片定价方式,并影响开发者如何设计成本敏感的 LLM 工具。
开源工具 pxpipe 通过把长文本输入渲染成 PNG 图片,来压缩 Claude Code 的上下文成本。它利用了 Anthropic 的计费方式:图片费用按像素尺寸计算,而不是按图片中包含多少文本内容计算。实际使用时,pxpipe 作为本地代理拦截请求,并把较大且静态的部分转换成图片,例如系统提示、工具文档和较旧的聊天历史。最近的消息和模型输出则仍然保持为普通文本,因此整体工作流看起来仍像正常对话。
文章称,密集排版的 PNG 大约可以做到每个图片 token 容纳 3.1 个字符,而文本大约是每个字符一个 token。示例中,大约 48,000 个字符的系统提示和工具文档被压缩到一张 PNG 页面里,成本从约 25,000 个 token 降到约 2,700 个。开发者 Steven Chong 表示,总体节省通常在 59% 到 70% 之间;在一个 Fable 5 演示中,会话费用从 42.21 美元降到了 6.06 美元。不过,这种做法是有损的,而且速度更慢,因为模型要先通过视觉编码器读取图片,像哈希这类精确字符串也可能被识别错。
这一技巧依赖于 Anthropic 的图片计费方式:图片费用与像素尺寸相关,而不是与图片里包含多少文本相关。其主要代价是有损且更慢:像哈希这样的精确字符串可能会被识别错,模型也必须通过视觉输入处理,而不是直接读取文本。
The Decoder

Anthropic 表示,它将启动自己的药物发现项目,重点研究那些传统制药公司因缺乏利润而往往回避的被忽视疾病。该消息是在其新的科学 AI 工具 Claude Science 发布活动上宣布的。
这是一项重要的战略举措,因为它表明一家大型 AI 实验室正在直接把模型用于药物研发,而不只是向外部提供工具。如果成功,它可能帮助扩大对商业关注不足疾病的研究,并推动 AI 在生物技术领域的更广泛应用。
Anthropic 宣布将启动自己的药物发现项目,目标是那些传统制药和生物技术公司常常因为缺乏利润而忽视的疾病。公司表示,这一举措符合其非营利使命,同时也能让它获得第一手经验,从而改进面向更广泛行业的 AI 模型和工具。该公告是在 Anthropic 新的科学 AI 工具 Claude Science 发布活动中作出的。活动中,公司展示了若干早期案例,用来说明 AI 可能如何加速科学研究。Anthropic 称,一名 UCSF 研究人员曾用 Claude Science 在几分钟内发现病毒污染,而这一问题此前整整一年都没有被团队察觉。公司还表示,Claude 在不到一小时内分析了 100 种罕见遗传病,并筛选出了 32 个可供计算筛查的候选对象。
文章指出,这一动作也反映出 AI 行业更广泛的趋势,因为其他大型 AI 公司同样在向医疗和药物研发扩张。报道提到,Google DeepMind 通过 Isomorphic Labs 直接参与药物发现,OpenAI 也在推进医疗相关项目。文章还引用了诺华 CEO Vas Narasimhan 的观点,他认为 AI 可能把药物开发周期从大约 12 年缩短到 7 到 8 年,因为它能减少信息延迟和运营延迟。与此同时,他认为更好的安全性预测和分子优化可能把成功率从大约 8% 提高到 16%,不过生物学层面的验证仍然需要大量时间。他强调,即使只是这些看似不大的改进,放到全球制药行业数千亿美元的研发投入中,也可能产生非常大的影响。
Anthropic 表示,它将重点放在早期的临床前阶段,也就是进入人体试验之前的候选药物探索阶段。公司还认为,亲自参与这些项目有助于它打造更好的 AI 模型和工具;此外,它称 Claude Science 已经帮助研究人员在几分钟内发现病毒污染,并在一小时内筛查了 100 种罕见遗传病。
The Decoder

OpenAI 联合创始人格雷格·布罗克曼表示,公司的长期目标是实现一种“几乎没有界面”的体验,让 AI 代理在后台无形地处理数字任务。他还说,OpenAI 早在 2023 年推出的 Plugins 之所以失败,是因为当时模型还不够成熟,尽管该功能后来已经停止。
这些言论凸显了 AI 产品理念的一次重要转向:从功能繁多的应用,转向能够长期保持上下文、替用户执行任务的代理。如果这一路线成功,用户就可能不再需要直接学习各种软件工具,企业围绕 AI 构建工作流程的方式也会被重塑。
这篇文章报道,OpenAI 联合创始人格雷格·布罗克曼正在描绘一种未来:软件逐渐退到幕后,由 AI 代理替用户完成任务。在他看来,人们不应该再被迫学习软件,ChatGPT 应该成为一层不可见的数字工作入口。布罗克曼把理想状态概括为“几乎没有界面”和“没有产品”,意思是价值不应来自越来越多的应用功能,而应来自一个能够持续保留上下文、主动行动的代理。文章同时回顾了 OpenAI 的 Plugins 计划,并指出它失败的原因是模型当时还不够成熟。
Plugins 于 2023 年推出,目标是把 ChatGPT 与网页搜索以及 Gmail 等第三方服务连接起来,但这一方案并没有成功,后来也被停止。文章还提到,OpenAI 在宣传新技术时有时会显得过于自信,即使底层能力还不够稳固。与此同时,OpenAI 自己的产品也并不完全符合布罗克曼设想的方向,因为像 Codex 这样的工具仍然需要明显的交互,并不是“隐形界面”。更广泛地说,要让这种代理式软件真正可靠,仍然需要大量提示词工程和定制集成,这也是 Anthropic、OpenAI 和 Microsoft 等公司会专门派团队到企业现场协助落地 AI 的原因。
布罗克曼将“几乎没有界面”的设想与 Codex 这类产品进行了对比,后者仍然需要明显的交互,离“隐形界面”还很远。文章还指出,要让 AI 足够可靠地支持这种模式,仍然需要大量提示词设计和定制集成,因此 Anthropic、OpenAI 和 Microsoft 甚至派出团队到客户现场协助落地 AI。