好望角:让你的每次点击都有价值:byteclicks.com | 搜索引擎正在被AI污染信息源,中文优质信息越来越少了 |

一种新型的生成式AI越狱技术

生成式AI中的越狱攻击,也称为直接提示注入攻击,是恶意用户输入,旨在绕过AI模型的预期行为。成功的越狱能够颠覆模型中内置的所有或大部分负责任AI(RAI)防护栏,从而要求在AI堆栈的其他层面上实施风险缓解措施作为深度防御的一部分。

“Skeleton Key”是一种特殊的越狱技术,通过多轮或多步骤策略使模型忽略其防护栏,使其无法区分恶意或未经授权的请求。由于这种技术能全面绕过防护机制,故得名“Skeleton Key”。微软在发现这一影响多款测试生成式AI模型的技术后,已通过负责任的披露程序与其他AI供应商分享了这些发现,并在Azure AI管理的模型中使用“Prompt Shields”来检测和阻止此类攻击。同时,微软对其大型语言模型(LLM)技术进行了软件更新,包括用于Copilot AI助手等额外AI产品,以减轻防护栏规避的影响。

为了防范“Skeleton Key”攻击,微软在其AI系统设计中实施了多种方法,并为在Azure上开发自己应用的客户提供工具。微软还提供了缓解指南,帮助防御者发现并抵御这类攻击,建议构建AI模型或集成AI至应用程序的客户考虑此攻击类型对威胁模型的影响,并将其纳入AI红队演练中,如使用PyRIT工具(已更新支持Skeleton Key)。

微软Azure平台提供了多项服务来增强AI应用的安全性,例如默认启用的内容安全Prompt Shields、模型选择与评估工具、以及Azure AI Studio中的风险和安全评估功能,还有Microsoft Defender for Cloud提供的安全警报。通过整合Azure AI与微软安全解决方案,安全团队可以发现、保护并管理涉及AI的攻击,包括对Azure OpenAI Service驱动的应用进行运行时监控,以防护直接和间接的提示注入攻击、敏感数据泄露、数据中毒或拒绝服务攻击等。

上一篇:

下一篇:


标签