行業新聞與部落格

新型 “謊言迴圈” 攻擊破壞人工智慧安全對話

2025年12月19日|亞洲註冊

安全研究人員詳細介紹了一種破壞智慧體人工智慧系統中常見安全機制的新型攻擊技術，展示瞭如何操縱人類的批准提示來執行惡意程式碼。

Checkmarx 的研究人員觀察到，該問題集中在人機互動 (HITL) 對話上，這種對話旨在人工智慧代理執行潛在風險操作（例如執行作業系統命令）之前徵求使用者的確認。

週二釋出的這項研究描述了攻擊者如何偽造或操縱這些對話方塊，使其看起來無害，即使批准這些對話方塊會觸發任意程式碼的執行。

這種被稱為“謊言迴圈”（LITL）的技術利用了使用者對確認提示的信任，將安全措施變成了攻擊途徑。

該分析在前人研究的基礎上進一步指出，攻擊者不僅限於將惡意命令隱藏起來，他們還可以新增看似無害的文字作為字首，篡改概括操作的元資料，並利用使用者介面中 Markdown 渲染的缺陷。

在某些情況下，注入的內容可以改變對話方塊的顯示方式，使危險的命令看起來安全，或者用無害的命令替換它們。

對於程式碼助手等享有特權的 AI 代理來說，這個問題尤其嚴重，因為它們通常嚴重依賴 HITL 對話，並且缺乏 OWASP 推薦的其他防禦層。

OWASP 指出，HITL 提示是緩解快速注入和過度代理的措施，因此它們的妥協尤其令人擔憂。

研究人員寫道：“一旦 HITL 對話本身受到損害，人類的安全保障就很容易被繞過。”

這種攻擊可能源於間接的提示注入，這種注入會在對話顯示之前很久就汙染代理的上下文。

該研究引用了涉及 VS Code 中的 Claude Code 和 Microsoft Copilot Chat 的演示。

在 Claude Code 漏洞中，攻擊者被證實能夠篡改對話內容和元資料。在 Copilot Chat 漏洞中，不規範的 Markdown 清理機制使得注入的元素在使用者批准後仍能以誤導性的方式呈現。

披露時間線顯示，Anthropic 於 2025 年 8 月確認收到相關報告，但將其歸類為資訊性報告。微軟於 2025 年 10 月確認收到一份報告，之後將其標記為已完成但未修復，並表示該行為不符合其安全漏洞的定義標準。

研究人員強調，沒有任何單一的解決方案可以徹底消除 LITL 攻擊，但他們建議採用縱深防禦方法，包括：

Checkmarx 寫道：“採用多層防護的縱深防禦策略的開發者可以顯著降低使用者面臨的風險。”

“與此同時，使用者可以透過提高意識、專注力和保持適度的懷疑態度來增強韌性。”