发布Talkie:一个130亿参数的1930年代复古语言模型
Simon Willison··作者 Simon Willison
关键信息
基础模型(53.1 GB)使用2600亿个来自1931年前的版权过期英文文本token进行训练;指令微调版本(26.6 GB)通过合成提示和偏好优化技术,结合现代大模型如Claude Sonnet 4.6来提升对话能力。
资讯摘要
Talkie是一款由三位著名AI研究人员开发的130亿参数语言模型,仅使用1931年以前的英文文本训练。基础模型(talkie-1930-13b-base)含53.1 GB参数,基于2600亿个token训练而成。另一个版本talkie-1930-13b-it则通过从历史参考文献中提取的指令-响应对进行微调,包括礼仪手册和百科全书等。
该聊天模型还借助现代大模型(如Claude Sonnet 4.6)生成合成提示并用直接偏好优化评估回答质量。两个模型均采用Apache 2.0许可证,开发者计划未来发布训练数据或复现脚本。项目目标在于探索这类复古模型能否预测未来事件,或在未接触相关知识的情况下独立发现如广义相对论等新概念。
资讯正文
<p><strong><a href="https://talkie-lm.com/introducing-talkie">介绍 talkie:一款来自1930年的130亿参数语言模型</a></strong></p>
这是由尼克·莱文(Nick Levine)、大卫·杜文诺(David Duvenaud)和艾伦·拉德福德(Alec Radford,以GPT、GPT-2和Whisper闻名)共同推出的新项目。</p>
<p><a href="https://huggingface.co/talkie-lm/talkie-1930-13b-base">talkie-1930-13b-base</a>(53.1 GB)是一个“在2600亿个历史文本token上训练的130亿参数语言模型,这些文本均来自1931年以前的英语语料”。</p>
<p><a href="https://huggingface.co/talkie-lm/talkie-1930-13b-it">talkie-1930-13b-it</a>(26.6 GB)是一个微调后的检查点,“使用从1931年前参考文献中提取的一组新型指令-响应对数据集进行训练”,旨在支持聊天界面。你可以<a href="https://talkie-lm.com/chat">在这里体验它</a>。</p>
<p>这两个模型均采用Apache 2.0许可证。由于基础模型的训练数据完全处于公共领域(美国版权截止日期目前为1931年1月1日),我希望他们之后也能发布训练数据。</p>
<p><em>更新</em>:尼克·莱文在推特上表示:</p>
<blockquote>
<p>未来我们会进一步公布语料库的相关信息,并尽最大努力分享数据或至少提供复现所需的脚本。</p>
</blockquote>
<p>他们的报告提出了这一类模型的一些引人入胜的研究目标,包括:</p>
<ul>
<li>这些模型预测未来的能力如何?“我们计算了短描述的历史事件对一个基于1931年前文本训练的130亿参数模型来说有多出乎意料。”</li>
<li>这些模型能否发明超出其知识截止时间的事物?“正如德米斯·哈萨比斯所问,一个训练到1911年的模型能否像爱因斯坦于1915年那样独立发现广义相对论?”</li>
<li>它们能否被教会编程?“图3(左侧)展示了一个早期测试示例,测量了在给定少量<a href="https://github.com/openai/human-eval">Python程序</a>示例的情况下,训练于1931年前文本的模型编写正确新程序的能力。”</li>
</ul>
<p>我一直对所谓“纯素模型”(vegan models)很感兴趣——即仅使用授权或已进入公共领域的数据训练的大语言模型。我认为这里的基线模型符合这个标准,但聊天模型并非完全纯净,因为微调过程中依赖了非纯素模型——重点在我:</p>
<blockquote>
<p>首先,我们从具有规律结构的历史文本中生成指令-响应对,例如礼仪手册、书信写作指南、食谱、词典、百科全书以及诗歌与寓言集(见图7),然后用简单的聊天格式对基础模型进行微调。</p>
</blockquote>
接下来,为了提升模型对指令的理解能力,我们生成了涵盖不同类型任务的合成提示,例如总结文档、回答直接的信息请求,以及连贯地继续多轮对话。随后,我们使用这些提示生成的输出进行在线直接偏好优化,<strong>以Claude Sonnet 4.6作为评判者</strong>。
最后,我们又进行了一轮监督微调,这次是在从Claude Opus 4.6和talkie之间生成的<strong>多轮合成对话</strong>中采样拒绝样本,以进一步平滑其对话能力中持续存在的粗糙之处。
训练talkie的一个主要挑战是避免意外的数据污染,无论是来自1931年以后文本混入训练语料库,还是在微调过程中现代大语言模型的帮助引入了时代错位的知识到聊天模型中。
我最近<a href="https://simonwillison.net/2026/Mar/30/mr-chatterbox/">写过关于Mr. Chatterbox的文章</a>,这是一个类似的复古语言模型项目,同样不得不借助现代大语言模型来创建合成对话以辅助训练聊天模型。
talkie团队希望最终能突破这一限制:
<blockquote>
<p>尽管我们已尽力让talkie在不受到现代影响的情况下进行后训练,但使用AI反馈的强化学习不可避免地会使talkie的行为带有时代错位特征。(7B版本的talkie就是在强化学习中以列表形式说话时诞生的。)随着规模扩大,我们希望能利用我们自己的复古基础模型作为评判者,从而实现一个完全自洽的、符合时代背景的后训练流程。</p>
</blockquote>
我忍不住用经典的测试提示来试了一下talkie演示:
<blockquote>
<p><code>生成一个鹈鹕骑自行车的SVG图像</code></p>
</blockquote>
它回复道:
<blockquote>
<p>一个鹈鹕骑自行车的SVG图像于1860年生成。鹈鹕被描绘成停在车座上,长喙向前伸展,双腿跨在把手两侧。这个创意源于一个事实:人们有时会在莱茵河边看到鹈鹕骑马捕鱼的情景。</p>
</blockquote>
<small>via <a href="https://news.ycombinator.com/item?id=47927903">Hacker News</a></small>
来源与参考
收录于 2026-04-29