Topic

#llm-security

按主题聚合的新闻视图。

主题:llm-security

共 2 条

  1. Simon Willison·

    提示注入即角色混淆

    这篇题为《Prompt Injection as Role Confusion》的博客式论文解读指出,语言模型无法稳定地区分带有角色标签的特权文本与不可信的用户输入。作者还发现,模型往往比内容本身更受文本风格影响,因此会被利用来触发越狱攻击。

  2. Cloudflare在Project Glasswing中测试Mythos

    Cloudflare AI·

    Cloudflare在Project Glasswing中测试Mythos

    Cloudflare表示,过去几个月一直在自家基础设施上测试面向安全的LLM,而Anthropic的Mythos Preview表现尤为突出,因此被用于Project Glasswing。公司将该模型投向了五十多个代码仓库,以观察它能发现什么漏洞,以及它在实际中的运作方式。