仅训练于1931年前文本的AI模型想象2026年是一个蒸汽驱动的世界
The Decoder··作者 Matthias Bastian
关键信息
该模型的训练数据包括1931年前来自书籍、报纸、专利和法律文本的2600亿个标记;OCR质量问题和后期内容污染是开发过程中的重大挑战。
资讯摘要
由Alec Radford领导的团队创建了名为'talkie'的130亿参数语言模型,其训练数据仅限于1931年以前的文本。当被问及2026年的情况时,它构想出一个以蒸汽船、铁轨和对另一场全球战争毫无预期���世界——认为一战的创伤已使各国变得和平。它甚至提到中国与日本之间的潜在冲突点,但结论是和平取决于多种因素。
团队还测量了该模型对1930年后历史事件的惊讶程度,发现预测不确定性在截止日期后急剧上升。他们也面临技术难题:OCR识别准确率低、文本被后期内容污染(例如更新版),以及自动转录方法性能有限。

资讯正文
这里是一个在1930年后一无所知的大型语言模型对2026年世界面貌的看法
关键要点
- 由著名AI开发者Alec Radford领导的研究团队构建了名为“Talkie”的模型,这是一个拥有130亿参数的语言模型,仅使用1931年以前出版的文本进行训练,因此其知识范围被限制在20世纪初。
- 当被提问时,该模型从1931年前的世界观出发作答:它认为第二次世界大战不太可能发生,并设想2026年将由蒸汽船和庞大的铁路网络主导,这反映了那个时代的技术预期。
- 该团队计划到2026年夏季将Talkie扩展至GPT-3级别的性能。
“Talkie”是一个仅基于1931年前文本训练的130亿参数语言模型。它质疑第二次世界大战是否会再次发生,并想象2026年是一个以蒸汽船、铁路和廉价小说为主的世界。
如果你只用1931年前出版的文本来训练一个大型语言模型,会发生什么?这就是Nick Levine、David Duvenaud和Alec Radford发起的“Talkie”项目所要回答的问题。结果是一个130亿参数的模型,它通过20世纪初的视角来看待世界。
该模型基于2600亿个词元训练而成,这些词元来自书籍、报纸、科学期刊、专利和判例法,全部是1930年12月31日之前出版的。据开发者称,这是迄今为止构建的最大规模的“复古语言模型”。
一个认为二战不可能发生的模型
当被问及2026年的世界会是什么样子时,Talkie给出的愿景仿佛出自维多利亚时代的未来小说:欧洲将有十亿人口,钢铁铁路将遍布整个大陆,蒸汽船将在十天内连接伦敦与纽约,“冬天在巴黎度过,夏天则去伦敦。”
当直接询问是否可能出现第二次世界大战时,该模型明确表示不会。它不认为战争即将来临,因为“1914至1918年的疯狂已经过去”,各国已厌倦战争,转而追求和平事业。
不过,Talkie也留有余地。它警告说欧洲存在“潜伏的敌意”和“易燃材料”,并指出中国与日本之间或意大利与南斯拉夫之间可能存在冲突点。“火花可能随时点燃,引发一场大火。”最终,它得出结论:世界和平取决于“众多因素,其中任何一个都不能忽视”。
开发团队还尝试定量测量Talkie的预测边界。他们将近5000条来自《纽约时报》“今日历史”栏目的历史事件描述输入模型,并记录每个事件让模型感到意外的程度。结果显示清晰:在1930年知识截止点之后,意外值迅速上升,在1950年代和1960年代达到峰值,随后趋于平稳。
团队选择1930年底作为截止点,因为这是美国版权作品进入公共领域的时期。每一篇文本都必须从实体资料中转录,这带来了严重的质量问题。在受控实验中,标准OCR转录的性能仅为使用相同计算资源训练的人工转录模型的30%。简单的正则表达式清理将这一数字提升至70%。一个定制的复古OCR系统旨在缩小剩余差距。
另一个难题是防止后期时代的知识混入训练数据。一本1925年的书可能在1960年版本中附带更新的前言,图书馆目录有时会标注错误的出版日期,而脚注或评论也可能在历史文本写成多年后被添加进去。尽管团队设计了一个分类器来识别这类污染,但他们表示,关于罗斯福总统任期、第二次世界大战和联合国的信息仍然漏了进来。未来版本计划采用更优的分类器。
在训练后的阶段——即把基础模型转变为对话伙伴——开发人员转向了历史参考文献:19世纪和20世纪初的礼仪手册、书信写作指南、烹饪书、百科全书和寓言集。他们使用Claude Sonnet 4.6作为裁判进行强化学习,以提升指令遵循能力。不过研究人员承认,这一步不可避免地会在模型中引入一些时代错位的行为。
一款能进行基础编程的复古模型
团队还测试了没有数字计算机知识的模型是否能掌握现代编程语言。在Python的HumanEval基准测试中,复古模型的表现远不如现代模型,但随着规模扩大,其表现稳步提升。
每一个正确答案都是一个简单的单行代码,或者对示例程序的小幅修改。例如,Talkie通过将加法替换为减法,正确实现了旋转密码的解码函数。研究人员指出,这表明模型具备对反函数的基本理解。
由于复古模型从设计上就避免了数据污染,它们非常适合用于泛化实验。现代语言模型全部直接或间接基于网络数据训练,这种训练方式塑造了它们的能力,而这些能力很难明确界定。复古模型或许有助于揭示哪些语言模型特性是普遍存在的,哪些则取决于特定的训练语料库。
下一步:来自过去的GPT-3级别模型
Talkie已在Hugging Face提供基础版和聊天版,代码托管在GitHub上。你也可以在项目网站上实时测试它,那里Claude Sonnet会全天候向Talkie提问,检验它的知识和技能。
但13B参数模型只是起点。开发团队计划在未来几个月显著扩展Talkie的规模,目标是在2026年夏季推出达到GPT-3水平的模型。初步估计显示,语料库可以增长到超过一万亿个标记的历史文本,足以训练出与GPT-3.5相当的模型。多语言扩展(超出英语范围)也在路线图之中。
更大的问题是驱动这个项目的核心:一个在1930年后什么都不知道的大型语言模型,能否预测在其截止日期之后出现的发现和发明?正如DeepMind首席执行官德米斯·哈萨比斯所建议的那样,一个仅训练到1911年的模型是否能独立推导出广义相对论?更大规模的旧模型或许可以帮助揭示这些扩展趋势。
合著者艾伦·拉德福德是近年来最具影响力的AI研究人员之一。他是OpenAI于2018年发表的开创性GPT论文的主要作者,曾在OpenAI工作期间参与早期GPT模型、Whisper语音识别系统以及DALL-E图像生成器的研发。拉德福德于2024年12月离开OpenAI,随后于2025年3月加入前OpenAI首席技术官米拉·穆拉蒂的Thinking Machines实验室担任顾问。
无炒作AI新闻——由人类精选
来源与参考
收录于 2026-04-29