仅训练于1931年前文本的AI模型想象2026年是一个蒸汽驱动的世界

The Decoder·4月29日 02:07 UTC·作者 Matthias Bastian

关键信息

该模型的训练数据包括1931年前来自书籍、报纸、专利和法律文本的2600亿个标记；OCR质量问题和后期内容污染是开发过程中的重大挑战。

资讯摘要

由Alec Radford领导的团队创建了名为'talkie'的130亿参数语言模型，其训练数据仅限于1931年以前的文本。当被问及2026年的情况时，它构想出一个以蒸汽船、铁轨和对另一场全球战争毫无预期��世界——认为一战的创伤已使各国变得和平。它甚至提到中国与日本之间的潜在冲突点，但结论是和平取决于多种因素。

团队还测量了该模型对1930年后历史事件的惊讶程度，发现预测不确定性在截止日期后急剧上升。他们也面临技术难题：OCR识别准确率低、文本被后期内容污染（例如更新版），以及自动转录方法性能有限。

资讯正文

这里是一个在1930年后一无所知的大型语言模型对2026年世界面貌的看法

关键要点

- 由著名AI开发者Alec Radford领导的研究团队构建了名为“Talkie”的模型，这是一个拥有130亿参数的语言模型，仅使用1931年以前出版的文本进行训练，因此其知识范围被限制在20世纪初。

- 当被提问时，该模型从1931年前的世界观出发作答：它认为第二次世界大战不太可能发生，并设想2026年将由蒸汽船和庞大的铁路网络主导，这反映了那个时代的技术预期。

- 该团队计划到2026年夏季将Talkie扩展至GPT-3级别的性能。

“Talkie”是一个仅基于1931年前文本训练的130亿参数语言模型。它质疑第二次世界大战是否会再次发生，并想象2026年是一个以蒸汽船、铁路和廉价小说为主的世界。

如果你只用1931年前出版的文本来训练一个大型语言模型，会发生什么？这就是Nick Levine、David Duvenaud和Alec Radford发起的“Talkie”项目所要回答的问题。结果是一个130亿参数的模型，它通过20世纪初的视角来看待世界。

该模型基于2600亿个词元训练而成，这些词元来自书籍、报纸、科学期刊、专利和判例法，全部是1930年12月31日之前出版的。据开发者称，这是迄今为止构建的最大规模的“复古语言模型”。

一个认为二战不可能发生的模型

当被问及2026年的世界会是什么样子时，Talkie给出的愿景仿佛出自维多利亚时代的未来小说：欧洲将有十亿人口，钢铁铁路将遍布整个大陆，蒸汽船将在十天内连接伦敦与纽约，“冬天在巴黎度过，夏天则去伦敦。”

当直接询问是否可能出现第二次世界大战时，该模型明确表示不会。它不认为战争即将来临，因为“1914至1918年的疯狂已经过去”，各国已厌倦战争，转而追求和平事业。

不过，Talkie也留有余地。它警告说欧洲存在“潜伏的敌意”和“易燃材料”，并指出中国与日本之间或意大利与南斯拉夫之间可能存在冲突点。“火花可能随时点燃，引发一场大火。”最终，它得出结论：世界和平取决于“众多因素，其中任何一个都不能忽视”。

开发团队还尝试定量测量Talkie的预测边界。他们将近5000条来自《纽约时报》“今日历史”栏目的历史事件描述输入模型，并记录每个事件让模型感到意外的程度。结果显示清晰：在1930年知识截止点之后，意外值迅速上升，在1950年代和1960年代达到峰值，随后趋于平稳。

团队选择1930年底作为截止点，因为这是美国版权作品进入公共领域的时期。每一篇文本都必须从实体资料中转录，这带来了严重的质量问题。在受控实验中，标准OCR转录的性能仅为使用相同计算资源训练的人工转录模型的30%。简单的正则表达式清理将这一数字提升至70%。一个定制的复古OCR系统旨在缩小剩余差距。

另一个难题是防止后期时代的知识混入训练数据。一本1925年的书可能在1960年版本中附带更新的前言，图书馆目录有时会标注错误的出版日期，而脚注或评论也可能在历史文本写成多年后被添加进去。尽管团队设计了一个分类器来识别这类污染，但他们表示，关于罗斯福总统任期、第二次世界大战和联合国的信息仍然漏了进来。未来版本计划采用更优的分类器。

在训练后的阶段——即把基础模型转变为对话伙伴——开发人员转向了历史参考文献：19世纪和20世纪初的礼仪手册、书信写作指南、烹饪书、百科全书和寓言集。他们使用Claude Sonnet 4.6作为裁判进行强化学习，以提升指令遵循能力。不过研究人员承认，这一步不可避免地会在模型中引入一些时代错位的行为。

一款能进行基础编程的复古模型

团队还测试了没有数字计算机知识的模型是否能掌握现代编程语言。在Python的HumanEval基准测试中，复古模型的表现远不如现代模型，但随着规模扩大，其表现稳步提升。

每一个正确答案都是一个简单的单行代码，或者对示例程序的小幅修改。例如，Talkie通过将加法替换为减法，正确实现了旋转密码的解码函数。研究人员指出，这表明模型具备对反函数的基本理解。

由于复古模型从设计上就避免了数据污染，它们非常适合用于泛化实验。现代语言模型全部直接或间接基于网络数据训练，这种训练方式塑造了它们的能力，而这些能力很难明确界定。复古模型或许有助于揭示哪些语言模型特性是普遍存在的，哪些则取决于特定的训练语料库。

下一步：来自过去的GPT-3级别模型

Talkie已在Hugging Face提供基础版和聊天版，代码托管在GitHub上。你也可以在项目网站上实时测试它，那里Claude Sonnet会全天候向Talkie提问，检验它的知识和技能。

但13B参数模型只是起点。开发团队计划在未来几个月显著扩展Talkie的规模，目标是在2026年夏季推出达到GPT-3水平的模型。初步估计显示，语料库可以增长到超过一万亿个标记的历史文本，足以训练出与GPT-3.5相当的模型。多语言扩展（超出英语范围）也在路线图之中。

更大的问题是驱动这个项目的核心：一个在1930年后什么都不知道的大型语言模型，能否预测在其截止日期之后出现的发现和发明？正如DeepMind首席执行官德米斯·哈萨比斯所建议的那样，一个仅训练到1911年的模型是否能独立推导出广义相对论？更大规模的旧模型或许可以帮助揭示这些扩展趋势。

合著者艾伦·拉德福德是近年来最具影响力的AI研究人员之一。他是OpenAI于2018年发表的开创性GPT论文的主要作者，曾在OpenAI工作期间参与早期GPT模型、Whisper语音识别系统以及DALL-E图像生成器的研发。拉德福德于2024年12月离开OpenAI，随后于2025年3月加入前OpenAI首席技术官米拉·穆拉蒂的Thinking Machines实验室担任顾问。

无炒作AI新闻——由人类精选

来源与参考

收录于 2026-04-29