回到列表

稳定代理控制:工具中介架构彻底改写AI网络安全攻防规则

核心发现
论文提出一种全新的"工具中介"LLM架构,通过将大语言模型的创造性与非确定性,严格约束在由数学定理(Stackelberg博弈、Lyapunov稳定性)保证的安全边界内,在真实企业攻击图上,让智能体的攻击期望收益降低59%,且零方差,首次为AI攻防系统提供了形式化数学保证。

【导读】长期以来,LLM在安全运营中心(SOC)等高风险场景中的应用,面临着

核心难题
模型幻觉、不可预测行为与对抗压力之间的矛盾。传统强化学习或纯LLM Agent在遭受智能攻击时,极易失控,导致灾难性配置。
本文的核心创新在于:不试图压制LLM的创造性,而是通过
架构创新
在LLM与执行环境之间插入一层"确定性工具层",将策略选择限制在预定义的"有限动作目录"内,同时利用Lyapunov函数在Lean 4中零容忍证明系统的输入-状态稳定性(ISS)。

【核心突破】

  1. 工具中介架构(Tool-Mediated Architecture):LLM的输出不再直接控制端点,而是调用一系列数学上可验证的"确定性工具"(如Stackelberg最优响应、贝叶斯观测更新、攻防图基准测试)。这些工具产生的结果必须落在有限动作目录中,从根源上封印了失控风险。

    点击展开原理传统Agent直接输出动作概率分布;本架构中,LLM仅负责从预置策略目录中"选择"策略,后再由工具层执行数学推导。LLM本身无需理解博弈论,只需进行高效的策略索引和探索(例如"尝试攻击链路A+防火墙规则B"),而稳定性由下层工具保证。
  2. 复合Lyapunov函数形式化验证:团队在定理证明器Lean 4中,构建了一个涵盖可控性可观性(从不完美传感器数据中感知)以及**输入-状态稳定性(ISS)**的复合Lyapunov函数,并实现了零容忍(zero sorry)的机器证明。这相当于给整个系统发放了数学保险单。

  3. 跨模型能力独立性:实验证明,稳定性认证与LLM模型能力无关。较弱模型(如Claude Haiku 4.5)虽然收敛到次优解,但依然严格保持在目录界内。

    重大发现
    这表明:稳定性是架构的固有属性,而非对特定模型的依赖。

【深度解析】 实验数据对比表(关键指标)

核心指标方案传统贪婪基线本架构(Claude Sonnet 4)本架构(Claude Haiku 4.5)
攻击者预期收益(游戏价值)100%降低59%(降至41%)降低约35%
运行方差(40轮,4组温度)高(典型存在波动)零方差零方差
是否保证输入-状态稳定(ISS)
是(数学证明)
是(数学证明)
动作边界约束强制执行强制执行
测试规模-282个真实企业攻击图同左
技术细节
稳定性认证不仅适用于特定控制器,还通过两个推论扩展到任何控制器任何攻击者,只要其行为属于预先定义的动作目录。这意味着即便攻击者使用未知的零日漏洞,只要其行为落在目录内,系统就能通过参数调整保持稳定。

【未来展望】 该架构首次将LLM的

创造性探索
(能发现人类未见的安全策略)与形式化数学验证 (提供安全保障)结合起来。
未来方向包括:

  1. 动态目录扩展:如何在保持稳定性证明的前提下,允许系统安全地扩展动作目录?
  2. 多智能体协调:将单智能体稳定性理论扩展到多LLM Agent的协同作战。
  3. 零样本泛化:训练一个适配器,让单一控制器无需微调即可无缝适配完全不同网络的攻防图拓扑。

警告
尽管实验环境是282张真实企业攻击图,但生产环境的复杂性远超测试集。从“实验稳定”到“绝对安全”之间,尚存工程鸿沟。
最后,
总结
这项研究标志着AI安全防御从经验主义走向了公理主义时代。工具中介架构,或将成为未来高风险LLM应用的黄金标准。


阅读原文https://arxiv.org/abs/2605.03034