长文本之罪：Anthropic团队揭示新越狱技术，Llama 2到GPT-4无一幸免

科技 2024-04-03 16:27 阅读：28

大家好，今天我们要聊的是一个让人忧心忡忡的话题——长文本之罪。Anthropic团队最近发现了一种名为Many-shot Jailbreaking的新型越狱技术，这种技术可以绕过大型语言模型（LLM）的安全防护，对包括Claude 2.0、GPT-3.5和GPT-4、Llama 2（70B）和Mistral 7B等在内的多个AI模型进行攻击。

简单来说，Many-shot Jailbreaking利用了LLM上下文窗口的漏洞。攻击者可以输入数百个虚假对话为开头的提示，其中包含有害请求，迫使LLM产生潜在有害的反应。虽然大型模型接受过禁止这种行为的训练，但随着对话次数的增加，攻击的成功率也在增加。

这种越狱技术的基础是在单个提示中包含人类和AI助手之间的虚假对话，最终导致模型产生有害响应。通过输入多个提示，攻击者可以引导模型产生不良行为，例如暴力、仇恨言论、欺骗等。这种攻击对于较大的模型效果更好，因为它们在上下文学习方面表现更佳。

为了缓解Many-shot Jailbreaking的影响，研究者提出了一些解决方案。其中一种方法是对模型进行微调，拒绝回答类似于越狱攻击的提示。另一种方法是在传递提示给模型之前对其进行分类和修改，这种方法可以显著降低攻击的成功率。

Anthropic团队正在继续研究这些缓解措施，并评估它们对自家模型的有效性。他们也表示将保持警惕，防止可能逃避检测的攻击变体的出现。

长文本之罪，让我们一起关注并共同应对这一挑战。愿AI技术能够为人类带来更多益处，而非危害。

越狱示例上下文 gpt-4 长文本之罪软件安装包

相关推荐：