长文本之罪:Anthropic团队揭示新越狱技术,Llama 2到GPT-4无一幸免

科技 2024-04-03 16:27 阅读:28

大家好,今天我们要聊的是一个让人忧心忡忡的话题——长文本之罪。Anthropic团队最近发现了一种名为Many-shot Jailbreaking的新型越狱技术,这种技术可以绕过大型语言模型(LLM)的安全防护,对包括Claude 2.0、GPT-3.5和GPT-4、Llama 2(70B)和Mistral 7B等在内的多个AI模型进行攻击。

简单来说,Many-shot Jailbreaking利用了LLM上下文窗口的漏洞。攻击者可以输入数百个虚假对话为开头的提示,其中包含有害请求,迫使LLM产生潜在有害的反应。虽然大型模型接受过禁止这种行为的训练,但随着对话次数的增加,攻击的成功率也在增加。

这种越狱技术的基础是在单个提示中包含人类和AI助手之间的虚假对话,最终导致模型产生有害响应。通过输入多个提示,攻击者可以引导模型产生不良行为,例如暴力、仇恨言论、欺骗等。这种攻击对于较大的模型效果更好,因为它们在上下文学习方面表现更佳。

为了缓解Many-shot Jailbreaking的影响,研究者提出了一些解决方案。其中一种方法是对模型进行微调,拒绝回答类似于越狱攻击的提示。另一种方法是在传递提示给模型之前对其进行分类和修改,这种方法可以显著降低攻击的成功率。

Anthropic团队正在继续研究这些缓解措施,并评估它们对自家模型的有效性。他们也表示将保持警惕,防止可能逃避检测的攻击变体的出现。

长文本之罪,让我们一起关注并共同应对这一挑战。愿AI技术能够为人类带来更多益处,而非危害。