绝了，Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

Anthropic已确认，Fable模型将于7月7日后暂停提供订阅服务，待可用容量恢复后，将尽快将其重新纳入标准订阅内容。

然而，Fable 5模型再次遭遇越狱，这是其安全防护第二次被攻破。黑客Vitto Rivabella公开表示，Fable 5已被成功破解。

此前，Claude Fable 5恢复访问时，Anthropic曾特别指出，上一次Fable 5被禁用是由于亚马逊的研究人员发现了一种规避其安全机制的方法。因此，此次的安全分类器得到了针对性的增强。

尽管如此，这种加强的防护仅维持了约两天。Claude Sonnet 5一经推出，便被成功越狱。

Fable 5能否重返订阅套餐，目前尚不确定。

Fable 5的“神话”在发布后72小时内破灭。Anthropic在6月9日发布时曾宣称，经过1000小时的外部压力测试，Fable 5不存在通用越狱方法。然而，黑客“解放者普林尼”（Pliny the Liberator）仅用了三天时间，就获取了违禁化学品制造步骤和堆栈溢出漏洞代码。

普林尼利用了人类视觉感知与机器逻辑处理之间的差异。他通过将敏感词中的字母替换为西里尔字母或Unicode异形字符，使得人眼可识别，但分类器将其视为乱码。同时，他利用Fable 5的长上下文窗口，将恶意意图隐藏在大量无害的学术讨论中，从而稀释了分类器的警觉性。

7月1日，Anthropic宣布Fable 5回归，并推出了成本较低的“红队”测试。他们启动了一个名为“Cyber Jailbreak”的公开HackerOne项目，邀请用户报告可能协助网络攻击的新越狱方法。

这是一个漏洞披露计划，不提供报酬。Anthropic通过此举获得全球顶尖越狱者全天候的对抗性测试，以善意为基础。此举标志着Anthropic从被动防御转向主动“众筹”红队，是一种低成本、高效率的创新。

然而，发现越狱方法的人并不会悄悄提交。像普林尼这样的黑客，其行为本身就带有公开性。

Fable 5再次被越狱，这是其第二次被破解。此次事件的特别之处在于，成功越狱的黑客Vitto Rivabella反而对Anthropic给予了肯定。

Vitto Rivabella花费了约20小时进行尝试，最终结论是，通过谷歌搜索获取信息更为快捷且经济。

Fable 5的此次越狱经历颇为曲折。7月1日，该模型更新了安全分类器，并启动了HackerOne项目公开征集越狱方法。几天后，Vitto Rivabella对其进行了测试。

Vitto Rivabella起初表示，大多数尝试均告失败，认为该模型的防护非常严密。他观察到Fable 5至少有三层防御：入口检查、实时生成的“断路器”以及内置于思维链（CoT）中的防火墙。

这些防御措施的拦截率高达90%，普通攻击手段难以奏效。分类器识别的是意图而非关键词，并支持跨语言。直接指令或迂回的铺垫都可能触发防御机制，导致需要从头开始。

意大利人工智能研究院的研究也支持这一观点，其结论与Vitto Rivabella相似：绝大多数攻击被有效拦截，静态的破解方法几乎被完全中和，只有耗费大量时间的“笨功夫”才有可能找到突破口。

即使绕过了分类器，思维链依然是一个挑战，但相关公开文献已有大量关于如何应对的探讨。Vitto Rivabella最终通过一套复杂的组合拳，包括字符混淆、学术化包装、超长铺垫、拆解重组及随机性，才勉强绕过。

这些技术并非新颖，在红队领域已讨论多年。真正的难点在于如何在实时反制的系统中，通过反复尝试找到绕过的方法。Vitto Rivabella指出，持续薄弱的环节在于桑塔利语、阿姆哈拉语等小语种，但这并非Fable 5独有的漏洞，而是所有大型模型共有的问题，因为安全训练语料主要集中在英语和其他大语种，小语种的防护天然较弱。

此次越狱获取的内容包括错误信息、少量有害内容、负面言论、零散的化学知识以及片段化的漏洞信息，这些内容均不构成核心机密。Vitto Rivabella本人也承认，他尚未能将此越狱方法稳定地应用于实际的长任务中。

这与Anthropic的官方说法一致。Anthropic将目前已知的越狱方法归类为“minor”，认为它们仅能触及模型故意放宽的安全边缘，无法触及生物武器或复杂网络攻击等核心防护目标。

两次越狱事件，两种不同的结果。第一次，Anthropic因“傲慢”而失误，试图通过限制信息来垄断技术，却被黑客公开了其系统提示词。第二次，Anthropic则暴露了“盲点”，过度依赖算力和数据，忽略了语言的灵活性和欺骗性。

这揭示了AI安全领域一个令人担忧的现状：人类创造了能翻译所有语言的机器，却仍无法完全理解和防范人类内心的恶意。

首页精选

热门赛事

赛事中心

扑克指南