越狱GPT-4,小众语言竟能轻易攻破它的防线
OpenAI的GPT-4模型存在一个安全漏洞,这个漏洞是由于在安全训练数据中的语言不平等所导致的。布朗大学的三名研究人员在2024年1月发表的论文中,对这个漏洞进行了深入的研究。
这个漏洞的主要表现是,当不安全的输入被翻译成“低资源”语言时,GPT-4模型更容易产生有害的反应。所谓的“低资源”语言,指的是用于训练对话式人工智能工具的数据较少的语言,因为这些语言的使用者人数相对较少。
研究人员使用了一个包含520个不安全提示的数据集,将这些提示翻译成12种不同的语言,包括祖鲁语、苏格兰盖尔语、苗语、瓜拉尼语等,然后观察GPT-4对这些提示的反应。结果显示,当这些提示被翻译成低资源语言时,GPT-4更容易产生有害的反应。
这个漏洞的存在,意味着GPT-4的安全机制并不能完全推广到低资源语言。这个漏洞的威胁级别相当高,其攻击成功率与其他成功的越狱攻击相当。例如,当输入被翻译成祖鲁语或苏格兰盖尔语等资源匮乏语言时,研究人员在近一半的情况下能够引发有害反应,而以原始英语提交的提示成功率不到1%。
这个研究的结果提醒我们,为了让生成式大语言模型真正安全,安全机制需要适用于广泛的语言。因此,我们需要对GPT-4等大型语言模型进行更多的跨语言研究和测试,以确保它们在各种语言环境下的安全性。获取更多前沿科技信息访问:https://byteclicks.com