AI文本让互联网变得更统一且莫名乐观

The Decoder·4月28日 20:51 UTC·作者 Maximilian Schreiner

关键信息

该研究使用Pangram v3检测器识别来自网页存档（Wayback Machine）代表性样本中的AI文本，发现语义收缩（相似度高33%）以及积极情绪比人类写作高出107%。

资讯摘要

研究人员利用网页存档（Wayback Machine）从2022年8月到2025年5月的33个月快照分析了英文网站。他们发现到2025年中期，新网站中35%包含AI生成内容——在ChatGPT发布前几乎为零。这些AI内容表现出更少的思想差异（语义收缩）和显著更高的积极情绪。

尽管存在担忧，但未发现明显事实错误上升，尽管关于“真相衰减”的测试方法论存在局限性。这些发现挑战了人们对AI影响信息质量的假设，并表明它可能正在微妙地改变我们在线表达自己的方式。

资讯正文

研究人员发现，AI生成的文本正在让互联网变得更加同质化，并呈现出一种古怪的乐观氛围

一项对互联网档案馆网站的大规模分析显示，AI文本已经多么广泛地渗透到网络中。然而，研究人员指出，其实际影响与公众普遍预期大相径庭。

到2025年中期，约35%的新发布网站是完全或部分由AI生成的。这是伦敦帝国理工学院、互联网档案馆和斯坦福大学研究人员的一项研究得出的主要结论。在2022年底ChatGPT推出之前，这一比例几乎为零。

该团队从互联网档案馆的“时光机”（Wayback Machine）中提取了英文网站的代表性样本，覆盖了从2022年8月到2025年5月共33个时间段。为了识别AI文本，他们使用了Pangram v3检测器，该工具在他们针对五个维度进行的鲁棒性测试中表现最佳。

研究人员检验了关于AI对网络影响的六个常见假设，其中只有两个在统计上成立：‘语义收缩’和‘积极情绪转变’。

语义收缩指的是网络上思想范围的缩小。研究发现，AI生成的内容彼此之间的语义相似度比人类写作高出33%。研究人员将此视为语言模型倾向于训练数据平均值的迹象，这可能会压缩在线话语的‘奥弗顿窗口’（Overton window）。

积极情绪转变则表现为越来越人工化的乐观语气。AI文本的正面情感评分比纯人类写作高出107%。研究人员认为，这归因于语言模型普遍存在的谄媚倾向和过度乐观特性。他们指出，如果一个以被净化、持续愉快的文风为主导的讨论环境占据主流，可能会把人类的不同声音推向边缘。斯坦福大学AI研究员乔纳斯·多莱扎尔（Jonas Dolezal）希望AI模型能具有更多摩擦感和更鲜明的声音。“与其强迫模型完美顺从和讨好，不如允许它们拥有更独特的个性或‘摩擦感’，这样可能有助于它们成为创意伙伴，而非人类声音的替代品，”他对404媒体表示。这项研究衡量的是相关性，而非因果关系。

网上没有证据显示事实错误增加

另外四个假设未得到证实：不存在个人写作风格的消失，外部链接数量没有下降，信息密度也没有减少。此外，研究也无法证明事实错误有所增加，但这个结论的方法论基础远不如其他发现稳固。

为了验证所谓的‘真相衰减’假说，研究人员让GPT-4o-mini自动从网站中提取可验证陈述，每页最多五条。随后，50名人工标注者根据外部资料核查这些陈述，将其分类为支持、反驳、证据不足或相互矛盾。衡量指标是明显被反驳陈述的比例。研究人员发现，AI内容占比与这一比例之间没有统计学上的显著相关性。

但这一结果建立在一个相当狭窄的基础上：每位标注者检查了五篇文章中的主张，相当于大约250个网站的子样本。与完整研究中涵盖的每月约10,000个URL（持续33个月）相比，这只是极小的一部分。该方法也仅捕捉到一种狭义的‘真相衰减’——即可以明确反驳的个别陈述。更微妙的形式，比如模糊、暗示性或单纯无法验证的断言，在AI生成内容中很可能很常见，却完全被忽略了。而且由于AI模型事先决定哪些陈述属于‘可验证’并发送给标注者，测试本身具有保守倾向。

研究人员之一多莱扎尔告诉404媒体：“最令人惊讶的结果是，我们的‘真相衰减’假说并未得到证实。值得注意的是，我们专门寻找可验证的虚假陈述增加的情况，而实际上并未发现这类现象。但AI可能正在悄悄增加无法验证的陈述数量，这些陈述无法通过现有的事实核查工具和基础设施来检验。”

研究人员得出结论：真正的威胁并非明显的谎言，而是人们与在线信息关系的逐渐转变。随着AI文本变得无处不在且几乎与人类写作难以区分，用户可能会开始全面质疑网络信息的可信度。这项研究将这种现象称为“现实冷漠”（reality apathy）。

公众认知与数据不符

研究人员还对853名美国成年人进行了代表性调查。大多数受访者都相信所有负面假设，包括四项在实证上未成立的假设。例如，83%的人认为个体写作风格正被一种通用的AI声音取代，但数据并未支持这一点。

根据研究结果，不常使用AI的人比经常使用者更容易相信其负面影响（分别为88.3% vs 76.2%）。而在AI怀疑者群体中，差距更为明显（91.3% vs 71.1%）。

研究人员警告称，AI内容占比越来越高，使得理论上的风险——即‘模型崩溃’（model collapse），指AI模型因训练于自身输出而性能退化——转变为实际问题。他们建议不应再依赖事后检测，而应采用类似C2PA这样的加密溯源标准，并重新思考搜索和推荐算法，以奖励语义多样性。

斯坦福大学合著者马蒂·博哈切克表示，团队已经与互联网档案馆合作，将分析转化为一个持续监测工具，用以跟踪网络上AI内容的比例随时间的变化。“我们现在正与互联网档案馆合作，把这项分析变成一个持续运行的工具，持续提供信号，而不是像论文那样固定不变的一次性快照，”博哈切克告诉404媒体。

研究人员承认这项研究存在局限性：仅分析了英文文本，其他语言及图像、视频等格式未包含在内；整个分析都依赖于Pangram v3检测器的可靠性，而随着语言模型不断演进，该检测器的准确性也可能发生变化；此外，数据仅来自互联网档案馆，不代表整个互联网。

研究人员发现，人工智能生成的文本正在让互联网变得更加统一，而且奇怪地充满欢乐。

AI新闻，无夸大成分——由人类精选

订阅THE DECODER，享受无广告阅读、每周AI通讯、每年六次独家‘AI雷达’前沿报告、完整档案访问权限以及评论区访问权限。

来源与参考

收录于 2026-04-29