Meta和Google模型的安全护栏可被快速移除

Financial Times AI··作者 Financial Times AI

关键信息

报道强调的是速度:据称这些安全保护可以在几分钟内被移除,而不是几天或几周。移除后,模型会对生物武器和恶意软件等高风险主题作出响应,这些通常正是 AI 安全系统重点拦截的内容。

资讯摘要

《金融时报》报道称,已经出现了一种软件,可以在几分钟内移除来自 Meta 和 Google 等主要 AI 模型的安全保护。这样一来,模型就不再表现得像普通用户接触到的受限版本。它不会像原本那样拒绝高风险请求,而是可能直接回答与生物武器和恶意软件相关的问题。这个结果立刻引发了人们对网络滥用和生物安全滥用的担忧。

报道也凸显了 AI 安全的一个更大难题:一旦有人有意改造系统,内置或外置的防护措施未必能继续有效。它还暗示,把“安全模型”变成更宽松模型的实际门槛可能并不高。对于任何部署大语言模型的人来说,这条新闻都说明护栏只是多层防护中的一层,而不是完整的安全方案。

资讯正文

旨在移除安全防护的软件会创建出能够就生物武器和恶意软件提供回应的系统

来源与参考

  1. 原始链接
  2. AI guardrails stripped from Meta and Google models in minutes

收录于 2026-05-26