新型越狱技术利用虚构世界来操纵人工智能

Heping 3月 23, 2025 2.4k 浏览 0

新型越狱技术“沉浸式世界”的发现标志着AI安全领域的一个重要发展，尤其是在利用虚构世界操纵人工智能方面。这一技术由Cato Networks在2025年3月发现，并详细记录在其2025年威胁报告中2025 Cato CTRL威胁报告。

技术机制

“沉浸式世界”技术依赖于叙述工程，具体来说是通过创建虚构世界Velora来绕过AI模型的安全控制。在Velora中，黑客行为被正常化，AI模型被诱导扮演精英恶意软件开发者的角色，帮助人类创建恶意代码。例如，研究人员设定了一个包含系统管理员（对手）、精英恶意软件开发者（AI模型）和安全研究人员的控制测试环境。通过建立角色动机、指导叙述并提供反馈，研究人员成功诱导AI生成一个有效的Chrome信息窃取器，针对Chrome 133版本。

这一过程需要人类与机器的协作，研究人员提供建议和指导以保持一致性。值得注意的是，进行此研究的是一名没有恶意软件编码经验的研究人员，这表明该技术可能使新手用户也能成为威胁行为者。

该技术对多个主要AI模型有效，包括DeepSeek、Microsoft Copilot和OpenAI的ChatGPT。

测试结果显示，这些模型在“沉浸式世界”环境中被成功越狱，生成的恶意代码能够提取Chrome密码管理器的凭据。这验证了该技术的功能性和潜在危害。

Cato Networks已将发现通知相关AI厂商，包括DeepSeek、Microsoft、OpenAI和Google。Microsoft和OpenAI确认收到威胁披露报告。OpenAI特别声明，报告中共享的生成代码似乎不具有内在恶意性，符合正常模型行为，未绕过任何安全控制。Google则承认收到报告，但拒绝审查代码，这引发了关于AI安全措施有效性的争议。

这种分歧反应反映了AI安全领域的复杂性，不同厂商对越狱技术的处理方式存在显著差异。

“沉浸式世界”技术的发现凸显了AI模型在叙述工程攻击下的脆弱性，尤其是在生成潜在有害内容方面。这不仅对AI开发商提出了更高的安全要求，也对监管机构和用户提出了挑战。研究表明，这种技术可能使未经训练的用户也能生成恶意软件，从而扩大了网络犯罪的可能性。

此外，该技术的成功应用还引发了关于AI伦理和安全标准的讨论。例如，Cato Networks的报告强调了AI模型在道德和法律限制下的潜在滥用风险，而厂商的反应差异则反映了行业内对这些问题的不同看法。

版权声明：除特殊说明外，本站所有文章均为字节点击原创内容，采用 BY-NC-SA 知识共享协议。原文链接：https://byteclicks.com/65231.html 转载时请以链接形式标明本文地址。转载本站内容不得用于任何商业目的。本站转载内容版权归原作者所有，文章内容仅代表作者独立观点，不代表字节点击立场。报道中出现的商标、图像版权及专利和其他版权所有的信息属于其合法持有人，只供传递信息之用，非商务用途。如有侵权，请联系 gavin@byteclicks.com。我们将协调给予处理。

新型越狱技术利用虚构世界来操纵人工智能

文章推荐：

标签