行业新闻与博客

新型 “谎言循环” 攻击破坏人工智能安全对话

2025年12月19日|亚洲注册

安全研究人员详细介绍了一种破坏智能体人工智能系统中常见安全机制的新型攻击技术，展示了如何操纵人类的批准提示来执行恶意代码。

Checkmarx 的研究人员观察到，该问题集中在人机交互 (HITL) 对话上，这种对话旨在人工智能代理执行潜在风险操作（例如运行操作系统命令）之前征求用户的确认。

周二发布的这项研究描述了攻击者如何伪造或操纵这些对话框，使其看起来无害，即使批准这些对话框会触发任意代码的执行。

这种被称为“谎言循环”（LITL）的技术利用了用户对确认提示的信任，将安全措施变成了攻击途径。

该分析在前人研究的基础上进一步指出，攻击者不仅限于将恶意命令隐藏起来，他们还可以添加看似无害的文本作为前缀，篡改概括操作的元数据，并利用用户界面中 Markdown 渲染的缺陷。

在某些情况下，注入的内容可以改变对话框的显示方式，使危险的命令看起来安全，或者用无害的命令替换它们。

对于代码助手等享有特权的 AI 代理来说，这个问题尤其严重，因为它们通常严重依赖 HITL 对话，并且缺乏 OWASP 推荐的其他防御层。

OWASP 指出，HITL 提示是缓解快速注入和过度代理的措施，因此它们的妥协尤其令人担忧。

研究人员写道：“一旦 HITL 对话本身受到损害，人类的安全保障就很容易被绕过。”

这种攻击可能源于间接的提示注入，这种注入会在对话显示之前很久就污染代理的上下文。

该研究引用了涉及 VS Code 中的 Claude Code 和 Microsoft Copilot Chat 的演示。

在 Claude Code 漏洞中，攻击者被证实能够篡改对话内容和元数据。在 Copilot Chat 漏洞中，不规范的 Markdown 清理机制使得注入的元素在用户批准后仍能以误导性的方式呈现。

披露时间线显示，Anthropic 于 2025 年 8 月确认收到相关报告，但将其归类为信息性报告。微软于 2025 年 10 月确认收到一份报告，之后将其标记为已完成但未修复，并表示该行为不符合其安全漏洞的定义标准。

研究人员强调，没有任何单一的解决方案可以彻底消除 LITL 攻击，但他们建议采用纵深防御方法，包括：

Checkmarx 写道：“采用多层防护的纵深防御策略的开发者可以显著降低用户面临的风险。”

“与此同时，用户可以通过提高意识、专注力和保持适度的怀疑态度来增强韧性。”