一种新型的生成式AI越狱技术

Frontier 6月 27, 2024 5.74k 浏览 0

生成式AI中的越狱攻击，也称为直接提示注入攻击，是恶意用户输入，旨在绕过AI模型的预期行为。成功的越狱能够颠覆模型中内置的所有或大部分负责任AI（RAI）防护栏，从而要求在AI堆栈的其他层面上实施风险缓解措施作为深度防御的一部分。

“Skeleton Key”是一种特殊的越狱技术，通过多轮或多步骤策略使模型忽略其防护栏，使其无法区分恶意或未经授权的请求。由于这种技术能全面绕过防护机制，故得名“Skeleton Key”。微软在发现这一影响多款测试生成式AI模型的技术后，已通过负责任的披露程序与其他AI供应商分享了这些发现，并在Azure AI管理的模型中使用“Prompt Shields”来检测和阻止此类攻击。同时，微软对其大型语言模型（LLM）技术进行了软件更新，包括用于Copilot AI助手等额外AI产品，以减轻防护栏规避的影响。

为了防范“Skeleton Key”攻击，微软在其AI系统设计中实施了多种方法，并为在Azure上开发自己应用的客户提供工具。微软还提供了缓解指南，帮助防御者发现并抵御这类攻击，建议构建AI模型或集成AI至应用程序的客户考虑此攻击类型对威胁模型的影响，并将其纳入AI红队演练中，如使用PyRIT工具（已更新支持Skeleton Key）。

微软Azure平台提供了多项服务来增强AI应用的安全性，例如默认启用的内容安全Prompt Shields、模型选择与评估工具、以及Azure AI Studio中的风险和安全评估功能，还有Microsoft Defender for Cloud提供的安全警报。通过整合Azure AI与微软安全解决方案，安全团队可以发现、保护并管理涉及AI的攻击，包括对Azure OpenAI Service驱动的应用进行运行时监控，以防护直接和间接的提示注入攻击、敏感数据泄露、数据中毒或拒绝服务攻击等。

版权声明：除特殊说明外，本站所有文章均为字节点击原创内容，采用 BY-NC-SA 知识共享协议。原文链接：https://byteclicks.com/60702.html 转载时请以链接形式标明本文地址。转载本站内容不得用于任何商业目的。本站转载内容版权归原作者所有，文章内容仅代表作者独立观点，不代表字节点击立场。报道中出现的商标、图像版权及专利和其他版权所有的信息属于其合法持有人，只供传递信息之用，非商务用途。如有侵权，请联系 gavin@byteclicks.com。我们将协调给予处理。

一种新型的生成式AI越狱技术

文章推荐：

标签