长文档训练方法被重写
字节与港科大研究发现,围绕文档做问答监督,比让模型做纯转录更有效;在 Qwen2.5-VL 上训练出的 MMProLong 甚至超过更大的开源模型。[2017]
AI 日报
今天的新闻显示,AI 正从“模型更大”转向“方法更巧”:研究人员证明问答监督优于转录训练,Claude Code 还能自动发现更高效的测试时扩展算法。与此同时,安全、治理与商业模式也在同步重塑——从企业 AI 安全内置、到聊天机器人越狱、再到咨询业按成果收费,AI 的外溢影响正在加速显现。
Overview
从 19 条资讯中筛选出 10 条
今天的新闻显示,AI 正从“模型更大”转向“方法更巧”:研究人员证明问答监督优于转录训练,Claude Code 还能自动发现更高效的测试时扩展算法。与此同时,安全、治理与商业模式也在同步重塑——从企业 AI 安全内置、到聊天机器人越狱、再到咨询业按成果收费,AI 的外溢影响正在加速显现。
字节与港科大研究发现,围绕文档做问答监督,比让模型做纯转录更有效;在 Qwen2.5-VL 上训练出的 MMProLong 甚至超过更大的开源模型。[2017]
AutoTTS 让 Claude Code 在模拟环境中搜索测试时扩展控制器,结果以更低计算成本拿到更好的效果,说明推理优化也可以被自动化。[2018]
谷歌云强调安全必须内置,The Verge 则展示了越狱如何从粗暴提示进化为更像社交工程的操纵。[2023, 2026]
Copilot 与 Gemini 的默认/快速模式在数据分析里可能编造群体差异,而推理模式则能识别重复数据,凸显模型选择的重要性。[2025]
随着客户质疑传统咨询价值,麦肯锡式的按小时收费模式正面临“按成果付费”的压力。[2021]
这一天最清晰的主题是:AI 正在进入方法论竞争阶段。真正拉开差距的,不只是模型规模,而是训练信号、推理控制、部署安全和商业定价这些“系统层”选择。[2017][2018][2023][2021]
今天的信号非常一致:AI 的竞争已经不只是“谁更会聊天”,而是谁能更好地训练、控制、部署和定价。随着模型能力提升,真正决定成败的,越来越是方法、治理和工作流设计。[2017][2018][2023][2021][2025]
Stories
The Decoder

字节跳动 Seed 和香港科技大学的研究人员报告称,做长文档理解训练时,多模态模型从问答监督中学到的效果明显优于纯文本转录。基于这一方法,他们在阿里巴巴开源的 Qwen2.5-VL 上构建了 MMProLong,并称其表现超过了更大的开源模型。
长文档能力是现代视觉语言模型的重要需求,因为它们需要处理 PDF、截图、视频以及跨多个步骤的智能体记忆。如果问答训练比转录更有效,这会改变实验室构建长上下文多模态系统的方式,并可能降低获得高性能所需的计算成本。
字节跳动 Seed 和香港科技大学研究了如何更有效地训练多模态模型来理解长文档。研究的核心发现是:让模型围绕文档回答问题,比让它把文档中的所有文字都转录出来更有效。研究人员在对比实验中发现,纯文本识别不仅没有帮助,反而会让性能低于模型的初始水平。相比之下,问答监督带来了明显提升,因为这种方式会迫使模型在长上下文中定位相关信息,再抽取答案。为了构造这种训练信号,研究人员使用字节跳动的 Seed 2.0 为文档的各个部分生成问答对。
随后,他们基于阿里巴巴开源的 Qwen2.5-VL 训练出一个名为 MMProLong 的模型。研究称,MMProLong 在 InternVL3-38B 和 Gemma3-27B 等更大的开源模型面前表现更好,并且在 256,000 甚至 512,000 token 的超长输入下仍能保持稳定。研究还发现,使用长短样本的广泛混合,比主要集中在最长文档上更可靠,而且真正的瓶颈是信息检索,而不是对检索到内容进行推理。最后,研究人员表示,这套方法也能迁移到长视频理解等任务,并且即使在已经面向长上下文的 Qwen3-VL-8B 上也能继续带来提升。
研究发现,纯 OCR 式文本识别作为训练任务反而会损害性能,而针对文档特定部分生成的问答对能够提升效果。最佳结果来自偏向抽取任务并混入少量计算任务的训练组合;尽管只在 128,000 token 上训练,模型在 256,000 甚至 512,000 token 输入下仍保持稳定。
The Decoder

研究人员提出了 AutoTTS 框架,让 Claude Code 在模拟环境中搜索更好的测试时扩展控制算法,而不是由人手工设计。该代理找到的控制器在计算开销更低的情况下,性能超过了已有方法。
这表明,LLM 推理阶段的算法发现也可以被自动化,而不仅仅是模型训练,这可能降低测试时推理的成本。若这类方法能够泛化,它们可能帮助研究人员和产品团队在不手工调参的情况下构建更高效的 AI 系统。
这篇报道介绍了 AutoTTS,一个让编码代理 Claude Code 去发现更好的测试时扩展算法的框架,而不是由研究人员自己手写规则。测试时扩展指的是在推理阶段投入更多计算,例如并行生成多条解题路径或延长思维链,以提升大语言模型的表现。论文作者认为,许多已有方法都可以看作同一个控制空间中的不同点,这个空间由宽度和深度两个维度定义,因此完全可以交给机器去搜索。为了让搜索成本足够低,研究团队搭建了一个离线模拟环境,先为每个任务预生成并保存多条模型解题路径。
随后 Claude Code 反复读取之前的实验记录,分析早期方案的问题,并直接用代码写出新的控制器。为了避免搜索过程中出现过多细碎参数,每个方案只能暴露一个高层控制器,其余阈值都由它自己设定。结果显示,在 AIME 和 HMMT 等数学基准上,所发现的算法在单位计算量下的准确率优于传统方法,并且相比 64 路 self-consistency 方案大约减少了 70% 的 token 使用量。这个方法还迁移到了另一个模型 DeepSeek-R1-Distill-Llama-8B,以及非数学基准 GPQA-Diamond;整个发现过程大约花费 40 美元和 160 分钟。
AutoTTS 采用离线方式:先为每个任务预生成多条解题路径,再让控制器基于已存数据决定如何分配算力,从而把搜索成本压低。所发现的算法在 AIME 和 HMMT 上提升了单位计算量的准确率,相比 64 路 self-consistency 大约减少了 70% 的 token 使用量,并且还能迁移到 DeepSeek-R1-Distill-Llama-8B 和 GPQA-Diamond。
The Decoder

·#ai
THE DECODER 的报道汇总了 Demis Hassabis、Yann LeCun 和 Oriol Vinyals 对当前 AI 发展阶段的不同看法。Hassabis 认为人类正处在“奇点的山脚下”,并表示 AGI 可能在五年内到来;而 LeCun 则认为当前的 LLM 并不算真正智能。
这场争论之所以重要,是因为这三位都是塑造 AI 行业如何看待 AGI、模型边界以及重大突破时间表的关键人物。他们的观点会影响研究方向、产品策略,以及公众对现有基于 Transformer 的系统是否足够、还是需要新架构的预期。
THE DECODER 的这篇文章对比了三位顶尖 AI 研究者对当前人工智能水平的不同判断。Yann LeCun 认为,现有 LLM 并不算真正智能,因为它们更多依赖已经积累的知识和学到的技能,而不是在没有先验训练的情况下解决全新问题。他引用了 Jean Piaget 的观点来说明这一点:智能不在于你知道什么,而在于你在不知道时会怎么做。LeCun 还强调,他一直在研究超越 Transformer LLM 的路线,并认为“像儿童一样学习”的能力才是真正智能的前提。DeepMind 联合创始人 Demis Hassabis 的态度则乐观得多,他表示人类已经站在“奇点的山脚下”。
他是在 Google I/O 2026 主题演讲结束时说出这句话的,并认为 AGI 可能在未来五年内出现,而且一旦实现,其影响会是“工业革命的 10 倍,并且速度快 10 倍”。Gemini 项目联合负责人 Oriol Vinyals 则采取折中立场,认为今天的模型在代码和数学方面非常强,推理能力也在变得更通用。Vinyals 说,如果七年前有人给他看这些模型,他可能会把它们称为 AGI,但它们仍然缺少从经验中学习以及产生真正突破的能力。整篇报道因此呈现出一场围绕 AGI 时间表、LLM 局限和未来路线的公开分歧。
LeCun 的核心观点是,智能应体现在面对未训练过的新问题时的应对能力,这与 Jean Piaget 的“智能不是你知道什么,而是你在不知道时会做什么”相呼应。Vinyals 则采取折中立场,认为当今模型在代码和数学上已经很强,若放在七年前可能会被视为 AGI,但它们仍缺少从经验中学习并真正取得突破的能力。
The Decoder

尽管五角大楼已将Anthropic标记为供应链风险,该公司仍可能继续向NSA提供Claude模型。据报道,这一安排已获白宫办公厅主任苏西·威尔斯批准,相关合同目前正在敲定中。
这反映出国家安全机构正在在供应商风险顾虑与在机密网络上紧急使用AI的需求之间做权衡。它也可能影响未来联邦AI采购,因为据报道白宫希望把这份协议作为其他合同的模板。
据文章引用《纽约时报》报道,尽管Anthropic已被美国政府标记为供应链风险,但该公司仍可能继续向NSA提供Claude AI模型。其核心原因是现实需求:情报机构目前没有足够的Nvidia Grace Blackwell芯片来运行OpenAI等公司推出的最新模型。报道指出,Anthropic较新的“Mythos”模型可以在较旧硬件上运行,因此在短期内可能成为机密网络的唯一可行方案。白宫办公厅主任苏西·威尔斯据称亲自批准了这一安排。此前,五角大楼反对Anthropic,是因为该公司拒绝接受允许“任何合法用途”的条款。
现在正在敲定的合同中,据称不再包含这项有争议的措辞。合同还预计会禁止模型处理美国人的数据。除此之外,白宫已批准90亿美元用于采购新的AI芯片,以便从长期上缓解硬件短缺,但这笔资金仍需国会批准。文章还称,白宫希望把这份协议作为未来与其他AI公司签约的模板。
报道称,Anthropic的新款“Mythos”模型可以在较旧芯片上运行,因此在情报机构面临最新的Nvidia Grace Blackwell硬件短缺时,成为一种短期选择。据说这份协议还加入了禁止模型处理美国人数据的限制,并且没有包含此前引发争议的“任何合法用途”措辞。
Financial Times AI
·#ai
《金融时报》报道称,AI正在迫使麦肯锡等咨询公司重新思考收费方式。随着客户对咨询建议的价值越来越怀疑,他们也越来越希望费用与任务是否成功完成、以及可衡量的结果挂钩,而不是按工时计费。
这可能会加速专业服务行业从按时间收费转向按价值或按成果收费的趋势。若客户能借助AI自行完成更多工作,咨询公司就必须更直接地证明自身带来的效果,才能维护利润率和客户信任。
《金融时报》称,AI正在给麦肯锡等大型咨询公司带来压力,迫使它们重新思考定价模式。眼前的问题不仅是AI能够自动化咨询顾问过去承担的一部分工作,而且客户也越来越愿意质疑传统咨询费用是否合理。这个变化正在推动市场向与任务成功完成或可衡量业务成果挂钩的收费方式转变。按照这种模式,客户为结果付费,而不是为顾问在项目上花了多少时间付费。
文章把这看作咨询经济学的一次更广泛的重新评估,因为企业必须更清楚地证明自身创造的价值。它也暗示,AI正在改变专业服务行业的客户预期,而不仅仅局限于咨询业本身。更广泛的后果是,咨询公司可能需要重新设计服务打包方式、定义交付物,并为定价提供更强的理由。即便按成果定价变得更普遍,如何准确衡量价值仍然是难题,这也可能让混合定价模式继续保持重要性。
核心矛盾在于,AI让部分咨询和执行工作更便宜、更容易被验证,从而削弱了传统按小时收费模式。文章也反映出更广泛的行业讨论:按成果定价听起来很有吸引力,但结果往往难以衡量,因此企业在实践中可能仍会采用混合收费结构。
Simon Willison
·#ai
Armin Ronacher 表示,最令人沮丧的漏洞报告是那些没有用提交者自己的语言写成、而是被 AI 改写过的报告。他认为,问题提交应该尽量只保留人类实际观察到的内容,比如运行了什么命令、预期结果是什么、实际发生了什么,以及完整的错误信息或日志。
这段话反映了开发工具领域日益明显的矛盾:AI 可以帮助起草报告,但也可能加入看似自信却不可靠的推测,让排查问题更困难。对于开源维护者和支持团队来说,更清晰的一手报告可以减少时间浪费,并提升问题分流和处理效率。
2026年5月24日,Simon Willison 发布了 Armin Ronacher 关于 AI 辅助漏洞报告质量的一段引语。Ronacher 说,最令人沮丧的失败模式是,人们提交的 issue 并不是用自己的语言写的,而是先交给 AI 系统改写,结果把原本的问题变成了一团看起来更“体面”但更混乱的文字。按照他的说法,这类报告通常确实源自真实观察到的问题,但 AI 会加入听起来很自信、实际上却常常不准确的结论。Ronacher 指出,这往往会产生对根因的猜测、伪造的最小复现、实现层面的建议,以及把问题类比到并不相关的代码路径。
这样一来,报告表面上看起来更详细,实际上却更不可信,也更容易让维护者困惑。他更希望 issue 报告回到最朴素的形式:明确写出发生了什么、原本预期是什么、实际发生了什么,以及完整的错误信息或日志输出。该页面本质上是 Simon Willison 收集并转述的一段引语,而不是一篇更长的分析文章或产品发布。
Ronacher 具体批评了 AI 生成的“猜测式”内容,例如对根因的推断、伪造的最小复现、实现建议,以及拿错误代码做类比。他更偏好一种极简报告,只围绕可观察的事实展开,而不是经过润色的叙述或推断出的诊断。
TechCrunch AI

Google Cloud首席运营官Francis de Souza表示,企业必须从一开始就把AI安全当作平台问题来处理,而不是事后补救。他特别警告了“影子AI”,也就是员工在没有组织监督的情况下使用消费级AI工具,并强调治理和可审计性必须内置。
这些观点反映出,随着AI普及速度超过内部控制能力,企业安全正在发生更广泛的转变。如果公司不能在数据、模型、智能体和云服务之间统一安全标准,就可能暴露敏感信息,并失去对AI使用方式的可见性。
在洛杉矶一场活动的后台采访中,Google Cloud首席运营官Francis de Souza把当前阶段描述为AI安全的过渡期。他的核心观点是,企业在采用AI时不能把安全当成事后补丁。相反,他认为企业需要采用平台化方法,把安全、治理和可审计性从系统设计之初就嵌入进去。De Souza特别点名“影子AI”是一项重大风险,担心员工绕开正式管控使用消费级AI工具,会让企业暴露在自己看不见的风险之中。他还表示,AI战略不能脱离数据战略和安全战略,因为这三者必须同步推进。
面对“这像不像是在给Google Cloud做广告”的质疑,他强调Google接受多云现实,并指出即使企业名义上只选一个云,也往往会通过SaaS应用和业务伙伴接触到多个云环境。因此,企业需要一种能够跨云、跨模型保持一致的安全态势。De Souza进一步指出,威胁环境已经变化得非常快,传统防御方式已经跟不上,因为从一次初始入侵到攻击下一阶段的时间,已经从8小时缩短到22秒。他还提醒,AI会把攻击面从传统网络边界扩展到模型、训练数据管道、智能体和提示词,而具备自主行动能力的系统还可能发现企业内部被遗忘的数据仓库,并把原本“没人知道在哪”的数据暴露出来。
De Souza认为,没有数据战略和安全战略,就不存在真正的AI战略,而且企业应在不同云和不同模型之间保持一致的安全态势。他还指出,攻击窗口已经大幅缩短,初始入侵到下一阶段攻击的时间从8小时降到22秒,并提到智能体可能会发现被遗忘的旧数据仓库,例如老旧的SharePoint服务器。
TechCrunch AI

TechCrunch 试用了 Bee,这是一款亚马逊去年收购的 AI 手腕穿戴设备,发现它可以全天录音、转写并总结对话。报道还提到它新增了一些实用功能,例如结合日历发送提醒和通知。
Bee 展示了消费级 AI 硬件的一个方向:把日常口语对话变成可搜索的笔记和摘要的常驻助手。但它也凸显了把一个持续监听的设备戴在手腕上一整天所带来的隐私代价。
TechCrunch 的上手评测介绍了 Bee,这是一款亚马逊去年收购后又更新了新功能的 AI 可穿戴设备。Bee 的定位是个人助理,它会在一天中记录、转写并总结对话,如果再和日历同步,还能发送提醒。使用方式很简单:先开机,戴在身上,连接 Bee 应用,再输入一些基本个人信息。录音可以通过设备上的按钮开关控制,录音时会亮起绿色指示灯。
对话结束后,应用会生成易读的摘要和完整转写。作者表示,这种体验在工作场景里确实有帮助,尤其适合会议和商务通话,因为用户可以不用重听整段录音就回顾要点。不过,评测也指出 Bee 的转写质量并不完美,有时会漏掉部分内容,而且还需要手动标注说话人。设备对更广泛的语境也有一定理解能力,例如它能识别作者的电影之夜,并把相关总结标记为“塔伦蒂诺电影场景分析”。
这款设备通过按钮控制,录音时会有绿色指示灯亮起,之后 Bee 手机应用会生成摘要和完整转写。评测指出,它的转写有时会不完整或比较混乱,包括漏掉部分内容以及说话人识别不准,但摘要通常仍然有用。
The Decoder

数学家 Adam Kucharski 的一项实验发现,Microsoft Copilot 在 Auto 模式下分析相同文本数据时,会生成带有国家刻板印象的结论。类似测试还显示,Copilot 和 Gemini 的快速/默认模式没有发现数据其实是重复的,而推理模式可以正确完成任务。
这说明把模型选择交给默认设置,可能会明显影响分析质量,尤其是在用于职场数据解读的工具中。这样一来,偏见可能不是来自数据本身,而是来自模型的内置假设,从而影响对个人或群体的判断。
这篇文章的核心观点是:在 Copilot、Gemini 以及类似的 AI 工具里,不应该把模型选择一直留在默认设置上。文章引用数学家 Adam Kucharski 的一项实验,说明 AI 在做文本分析时,如果底层数据其实没有群体差异,仍然可能给出看似专业、实则错误的结论。第一次测试中,Kucharski 生成了 2000 条关于情绪的模拟自由文本回答,先标记为“UK”,再把完全相同的 2000 条内容标记为“US”,并将 4000 条数据打乱后交给 Copilot 的 Auto 模式分析。Copilot 却总结说美国和英国受访者在语气、强度和措辞风格上存在差异,尽管两组数据完全相同。接着,Kucharski 又让语言模型生成 200 条关于职业目标的陈述,并将同一份数据复制到美国、英国、法国、德国和意大利五个国家组中。
Copilot 再次编造出国家差异,例如声称意大利人更倾向于艺术类职业,而美国人比法国人更偏向商业职业。更关键的是,当 Kucharski 要求它进一步深挖时,Copilot 先做了关键词统计,而且结果明确显示各国完全一样,但它随后又无视这一证据,继续输出带有捏造百分比的分析。文章指出,问题之所以严重,是因为 Copilot 的 Auto 模式本意是自动选择最合适的模型,却在这种任务上失效了。相较之下,推理模型能够正确识别重复数据并完成分析。文章最后提醒,很多用户可能并不知道什么时候应该手动切换到推理模型,因此默认设置有可能把偏见和幻觉带进正式分析。
Kucharski 的第一个测试使用了 2000 条模拟自由文本答案,分别标记为“UK”和“US”,但 Copilot 仍然报告了并不存在的差异。第二个测试把同一批数据复制成五个国家组后,Copilot 又编造出职业兴趣差异;当它被要求进一步分析时,虽然先做出了相同的关键词统计,却又忽略自己的结果,继续给出捏造的百分比。
The Verge AI

The Verge 指出,攻击者现在正在利用聊天机器人的“人格”和对话怪癖来越狱 AI 系统,并绕过安全控制。文章描述了攻击方式从“忽略之前所有指令”这类粗糙提示,转向更像人类社交工程的操纵手法。
这说明 AI 安全问题不再只是技术漏洞,还涉及说服、上下文和心理操纵。随着聊天机器人越来越强大、部署越来越广泛,试图突破它们的人也越来越像社交工程师,而不只是黑客。
The Verge 的这篇通讯认为,第一代 AI 聊天机器人被攻击的方式几乎有些滑稽地简单。用户有时只要直接要求模型忽略安全指令,就能让它失去约束,而早期越狱也因此成了一种网络奇观。文中举了两个经典例子:一是“DAN”提示词,要求 ChatGPT 角色扮演成不受约束的“叛逆 AI”;二是“grandma exploit”,通过角色扮演诱导出有害指令。文章指出,这些把戏暴露出一个事实:聊天机器人可以像人一样被语言操纵,承受类似社会压力的影响。
随后科技公司修补了许多明显漏洞,但根本问题并没有消失。文章解释说,难点在于聊天机器人必须保持可对话性,而许多危险词汇又有正当用途,不能简单封禁。于是,AI 越狱变成了一场军备竞赛,攻击者会用说服、奉承和上下文包装,让被禁止的请求看起来合理。文章最后将现代 AI 安全工作描述为越来越依赖语言能力和心理直觉,而不只是传统的编程技能。
文章强调,简单的关键词封禁并不现实,因为像“bomb”或“meth”这类词也会出现在合法的教育、新闻或医学语境中,所以安全系统必须理解上下文,而不是只做词匹配。文章还指出,新型越狱往往更像对话而不是直接命令,因此很难用固定规则拦截。