核心发现
论文提出一种全新的"工具中介"LLM架构,通过将大语言模型的创造性与非确定性,严格约束在由数学定理(Stackelberg博弈、Lyapunov稳定性)保证的安全边界内,在真实企业攻击图上,让智能体的攻击期望收益降低59%,且零方差,首次为AI攻防系统提供了形式化数学保证。
【导读】长期以来,LLM在安全运营中心(SOC)等高风险场景中的应用,面临着
核心难题
模型幻觉、不可预测行为与对抗压力之间的矛盾。传统强化学习或纯LLM Agent在遭受智能攻击时,极易失控,导致灾难性配置。
架构创新
在LLM与执行环境之间插入一层"确定性工具层",将策略选择限制在预定义的"有限动作目录"内,同时利用Lyapunov函数在Lean 4中零容忍证明系统的输入-状态稳定性(ISS)。
【核心突破】
工具中介架构(Tool-Mediated Architecture):LLM的输出不再直接控制端点,而是调用一系列数学上可验证的"确定性工具"(如Stackelberg最优响应、贝叶斯观测更新、攻防图基准测试)。这些工具产生的结果必须落在有限动作目录中,从根源上封印了失控风险。
点击展开原理
传统Agent直接输出动作概率分布;本架构中,LLM仅负责从预置策略目录中"选择"策略,后再由工具层执行数学推导。LLM本身无需理解博弈论,只需进行高效的策略索引和探索(例如"尝试攻击链路A+防火墙规则B"),而稳定性由下层工具保证。复合Lyapunov函数形式化验证:团队在定理证明器Lean 4中,构建了一个涵盖可控性、可观性(从不完美传感器数据中感知)以及**输入-状态稳定性(ISS)**的复合Lyapunov函数,并实现了零容忍(zero sorry)的机器证明。这相当于给整个系统发放了数学保险单。
跨模型能力独立性:实验证明,稳定性认证与LLM模型能力无关。较弱模型(如Claude Haiku 4.5)虽然收敛到次优解,但依然严格保持在目录界内。
重大发现这表明:稳定性是架构的固有属性,而非对特定模型的依赖。
【深度解析】 实验数据对比表(关键指标)
| 核心指标 | 方案 | 传统贪婪基线 | 本架构(Claude Sonnet 4) | 本架构(Claude Haiku 4.5) |
|---|---|---|---|---|
| 攻击者预期收益(游戏价值) | 100% | 降低59%(降至41%) | 降低约35% | |
| 运行方差(40轮,4组温度) | 高(典型存在波动) | 零方差 | 零方差 | |
| 是否保证输入-状态稳定(ISS) | 否 | 是(数学证明) | 是(数学证明) | |
| 动作边界约束 | 无 | 强制执行 | 强制执行 | |
| 测试规模 | - | 282个真实企业攻击图 | 同左 |
技术细节
稳定性认证不仅适用于特定控制器,还通过两个推论扩展到任何控制器或任何攻击者,只要其行为属于预先定义的动作目录。这意味着即便攻击者使用未知的零日漏洞,只要其行为落在目录内,系统就能通过参数调整保持稳定。
【未来展望】 该架构首次将LLM的
创造性探索
(能发现人类未见的安全策略)与形式化数学验证 (提供安全保障)结合起来。
- 动态目录扩展:如何在保持稳定性证明的前提下,允许系统安全地扩展动作目录?
- 多智能体协调:将单智能体稳定性理论扩展到多LLM Agent的协同作战。
- 零样本泛化:训练一个适配器,让单一控制器无需微调即可无缝适配完全不同网络的攻防图拓扑。
警告
尽管实验环境是282张真实企业攻击图,但生产环境的复杂性远超测试集。从“实验稳定”到“绝对安全”之间,尚存工程鸿沟。
总结
这项研究标志着AI安全防御从经验主义走向了公理主义时代。工具中介架构,或将成为未来高风险LLM应用的黄金标准。