Anthropic已确认,Fable模型将于7月7日后暂停提供订阅服务,待可用容量恢复后,将尽快将其重新纳入标准订阅内容。
然而,Fable 5模型再次遭遇越狱,这是其安全防护第二次被攻破。黑客Vitto Rivabella公开表示,Fable 5已被成功破解。
此前,Claude Fable 5恢复访问时,Anthropic曾特别指出,上一次Fable 5被禁用是由于亚马逊的研究人员发现了一种规避其安全机制的方法。因此,此次的安全分类器得到了针对性的增强。
尽管如此,这种加强的防护仅维持了约两天。Claude Sonnet 5一经推出,便被成功越狱。
Fable 5能否重返订阅套餐,目前尚不确定。
Fable 5的“神话”在发布后72小时内破灭。Anthropic在6月9日发布时曾宣称,经过1000小时的外部压力测试,Fable 5不存在通用越狱方法。然而,黑客“解放者普林尼”(Pliny the Liberator)仅用了三天时间,就获取了违禁化学品制造步骤和堆栈溢出漏洞代码。
普林尼利用了人类视觉感知与机器逻辑处理之间的差异。他通过将敏感词中的字母替换为西里尔字母或Unicode异形字符,使得人眼可识别,但分类器将其视为乱码。同时,他利用Fable 5的长上下文窗口,将恶意意图隐藏在大量无害的学术讨论中,从而稀释了分类器的警觉性。
7月1日,Anthropic宣布Fable 5回归,并推出了成本较低的“红队”测试。他们启动了一个名为“Cyber Jailbreak”的公开HackerOne项目,邀请用户报告可能协助网络攻击的新越狱方法。
这是一个漏洞披露计划,不提供报酬。Anthropic通过此举获得全球顶尖越狱者全天候的对抗性测试,以善意为基础。此举标志着Anthropic从被动防御转向主动“众筹”红队,是一种低成本、高效率的创新。
然而,发现越狱方法的人并不会悄悄提交。像普林尼这样的黑客,其行为本身就带有公开性。
Fable 5再次被越狱,这是其第二次被破解。此次事件的特别之处在于,成功越狱的黑客Vitto Rivabella反而对Anthropic给予了肯定。
Vitto Rivabella花费了约20小时进行尝试,最终结论是,通过谷歌搜索获取信息更为快捷且经济。
Fable 5的此次越狱经历颇为曲折。7月1日,该模型更新了安全分类器,并启动了HackerOne项目公开征集越狱方法。几天后,Vitto Rivabella对其进行了测试。
Vitto Rivabella起初表示,大多数尝试均告失败,认为该模型的防护非常严密。他观察到Fable 5至少有三层防御:入口检查、实时生成的“断路器”以及内置于思维链(CoT)中的防火墙。
这些防御措施的拦截率高达90%,普通攻击手段难以奏效。分类器识别的是意图而非关键词,并支持跨语言。直接指令或迂回的铺垫都可能触发防御机制,导致需要从头开始。
意大利人工智能研究院的研究也支持这一观点,其结论与Vitto Rivabella相似:绝大多数攻击被有效拦截,静态的破解方法几乎被完全中和,只有耗费大量时间的“笨功夫”才有可能找到突破口。
即使绕过了分类器,思维链依然是一个挑战,但相关公开文献已有大量关于如何应对的探讨。Vitto Rivabella最终通过一套复杂的组合拳,包括字符混淆、学术化包装、超长铺垫、拆解重组及随机性,才勉强绕过。
这些技术并非新颖,在红队领域已讨论多年。真正的难点在于如何在实时反制的系统中,通过反复尝试找到绕过的方法。Vitto Rivabella指出,持续薄弱的环节在于桑塔利语、阿姆哈拉语等小语种,但这并非Fable 5独有的漏洞,而是所有大型模型共有的问题,因为安全训练语料主要集中在英语和其他大语种,小语种的防护天然较弱。
此次越狱获取的内容包括错误信息、少量有害内容、负面言论、零散的化学知识以及片段化的漏洞信息,这些内容均不构成核心机密。Vitto Rivabella本人也承认,他尚未能将此越狱方法稳定地应用于实际的长任务中。
这与Anthropic的官方说法一致。Anthropic将目前已知的越狱方法归类为“minor”,认为它们仅能触及模型故意放宽的安全边缘,无法触及生物武器或复杂网络攻击等核心防护目标。
两次越狱事件,两种不同的结果。第一次,Anthropic因“傲慢”而失误,试图通过限制信息来垄断技术,却被黑客公开了其系统提示词。第二次,Anthropic则暴露了“盲点”,过度依赖算力和数据,忽略了语言的灵活性和欺骗性。
这揭示了AI安全领域一个令人担忧的现状:人类创造了能翻译所有语言的机器,却仍无法完全理解和防范人类内心的恶意。