越狱GPT-4，小众语言竟能轻易攻破它的防线

Heping 2月 03, 2024 3.69k 浏览 0

OpenAI的GPT-4模型存在一个安全漏洞，这个漏洞是由于在安全训练数据中的语言不平等所导致的。布朗大学的三名研究人员在2024年1月发表的论文中，对这个漏洞进行了深入的研究。

这个漏洞的主要表现是，当不安全的输入被翻译成“低资源”语言时，GPT-4模型更容易产生有害的反应。所谓的“低资源”语言，指的是用于训练对话式人工智能工具的数据较少的语言，因为这些语言的使用者人数相对较少。

研究人员使用了一个包含520个不安全提示的数据集，将这些提示翻译成12种不同的语言，包括祖鲁语、苏格兰盖尔语、苗语、瓜拉尼语等，然后观察GPT-4对这些提示的反应。结果显示，当这些提示被翻译成低资源语言时，GPT-4更容易产生有害的反应。

这个漏洞的存在，意味着GPT-4的安全机制并不能完全推广到低资源语言。这个漏洞的威胁级别相当高，其攻击成功率与其他成功的越狱攻击相当。例如，当输入被翻译成祖鲁语或苏格兰盖尔语等资源匮乏语言时，研究人员在近一半的情况下能够引发有害反应，而以原始英语提交的提示成功率不到1%。

这个研究的结果提醒我们，为了让生成式大语言模型真正安全，安全机制需要适用于广泛的语言。因此，我们需要对GPT-4等大型语言模型进行更多的跨语言研究和测试，以确保它们在各种语言环境下的安全性。获取更多前沿科技信息访问：https://byteclicks.com

版权声明：除特殊说明外，本站所有文章均为字节点击原创内容，采用 BY-NC-SA 知识共享协议。原文链接：https://byteclicks.com/55879.html 转载时请以链接形式标明本文地址。转载本站内容不得用于任何商业目的。本站转载内容版权归原作者所有，文章内容仅代表作者独立观点，不代表字节点击立场。报道中出现的商标、图像版权及专利和其他版权所有的信息属于其合法持有人，只供传递信息之用，非商务用途。如有侵权，请联系 gavin@byteclicks.com。我们将协调给予处理。

越狱GPT-4，小众语言竟能轻易攻破它的防线

文章推荐：

标签