稳定代理控制：工具中介架构彻底改写AI网络安全攻防规则

核心发现

论文提出一种全新的"工具中介"LLM架构，通过将大语言模型的创造性与非确定性，严格约束在由数学定理（Stackelberg博弈、Lyapunov稳定性）保证的安全边界内，在真实企业攻击图上，让智能体的攻击期望收益降低59%，且零方差，首次为AI攻防系统提供了形式化数学保证。

【导读】长期以来，LLM在安全运营中心（SOC）等高风险场景中的应用，面临着

核心难题

模型幻觉、不可预测行为与对抗压力之间的矛盾。传统强化学习或纯LLM Agent在遭受智能攻击时，极易失控，导致灾难性配置。

本文的核心创新在于：不试图压制LLM的创造性，而是通过

架构创新

在LLM与执行环境之间插入一层"确定性工具层"，将策略选择限制在预定义的"有限动作目录"内，同时利用Lyapunov函数在Lean 4中零容忍证明系统的输入-状态稳定性（ISS）。

【核心突破】

工具中介架构（Tool-Mediated Architecture）：LLM的输出不再直接控制端点，而是调用一系列数学上可验证的"确定性工具"（如Stackelberg最优响应、贝叶斯观测更新、攻防图基准测试）。这些工具产生的结果必须落在有限动作目录中，从根源上封印了失控风险。
点击展开原理
传统Agent直接输出动作概率分布；本架构中，LLM仅负责从预置策略目录中"选择"策略，后再由工具层执行数学推导。LLM本身无需理解博弈论，只需进行高效的策略索引和探索（例如"尝试攻击链路A+防火墙规则B"），而稳定性由下层工具保证。
复合Lyapunov函数形式化验证：团队在定理证明器Lean 4中，构建了一个涵盖可控性、可观性（从不完美传感器数据中感知）以及**输入-状态稳定性（ISS）**的复合Lyapunov函数，并实现了零容忍（zero sorry）的机器证明。这相当于给整个系统发放了数学保险单。
跨模型能力独立性：实验证明，稳定性认证与LLM模型能力无关。较弱模型（如Claude Haiku 4.5）虽然收敛到次优解，但依然严格保持在目录界内。
重大发现
这表明：稳定性是架构的固有属性，而非对特定模型的依赖。

【深度解析】 实验数据对比表（关键指标）

核心指标	方案	传统贪婪基线	本架构（Claude Sonnet 4）
攻击者预期收益（游戏价值）	100%	降低59%（降至41%）	降低约35%
运行方差（40轮，4组温度）	高（典型存在波动）	零方差	零方差
是否保证输入-状态稳定（ISS）	否	是（数学证明）	是（数学证明）
动作边界约束	无	强制执行	强制执行
测试规模	-	282个真实企业攻击图	同左

技术细节

稳定性认证不仅适用于特定控制器，还通过两个推论扩展到任何控制器或任何攻击者，只要其行为属于预先定义的动作目录。这意味着即便攻击者使用未知的零日漏洞，只要其行为落在目录内，系统就能通过参数调整保持稳定。

【未来展望】该架构首次将LLM的

创造性探索

（能发现人类未见的安全策略）与形式化数学验证 （提供安全保障）结合起来。

未来方向包括：

警告

尽管实验环境是282张真实企业攻击图，但生产环境的复杂性远超测试集。从“实验稳定”到“绝对安全”之间，尚存工程鸿沟。

最后，

总结

这项研究标志着AI安全防御从经验主义走向了公理主义时代。工具中介架构，或将成为未来高风险LLM应用的黄金标准。

阅读原文：https://arxiv.org/abs/2605.03034