回到列表

Agent-BOM:用统一图结构终结LLM Agent安全审计“罗生门”

一个比大模型幻觉更危险的隐患正在浮现
当LLM Agent从工具调用跃升为自主决策的“数字雇员”,其“语义驱动”执行范式正让传统安全审计手段形同虚设——静态SBOM只能列出工具清单,运行时日志则如散落一地的碎片。本文提出的 Agent-BOM(Agent Bill of Materials),用一个统一的分层属性有向图,第一次将碎片化痕迹编织成可查询、可追溯的“攻击链地图”,让跨会话内存投毒、能力供应链劫持等隐秘攻击现出原形。

【核心突破】

论文核心创新
Agent-BOM 不是又一张物料清单,而是一个“安全审计的基础设施”——它通过静态能力层(模型、工具、长期记忆)与动态语义层(目标、推理轨迹、动作)的双层图结构,将Agent的认知状态演化、能力绑定和风险级联全部模型化为可查询的审计路径
对比维度传统方式(SBOM + 日志)Agent-BOM
审计粒度工具级别的离散事件语义节点 + 有向边的完整路径
状态追踪无法捕捉Agent认知状态的演化显式建模目标-推理-行动序列
跨会话关联日志时间戳难以关联多会话行为通过记忆污染节点链接跨会话攻击
攻击链重构需要人工拼接大量日志片段图查询即可重构完整攻击链
风险传播无法表现多Agent间的级联效应通过语义边建模Agent间信任与权限滥用
核心结论
实验表明,Agent-BOM能够成功重构包括跨会话内存投毒、工具滥用、能力供应链劫持、多Agent生态系统劫持、权限与信任滥用在内的所有主要攻击范式,为LLM Agent提供统一且高效的责任链条重建基础。

【深度解析】

Agent-BOM的设计哲学可拆解为三个关键引擎:

1. 双层图结构:认知与物理的“数字孪生”

  • 静态层:包含模型、工具、长期记忆等静态能力元数据。这解决了“Agent到底能做什么”的问题(即能力基线)。
  • 动态层:记录每个会话中的目标节点推理轨迹节点动作节点,并附上语义标签(如goal: “reset admin password”)。
  • 连接机制:静态与动态层通过语义边绑定。例如,当一个Agent使用工具修改长期记忆时,就会产生一条从ActionMemory的边,并携带“权限”与“污染”属性。

2. 路径级风险评估:从“看日志”到“查图”

  • 基于Agent-BOM,作者提出了图查询范式来替代传统的日志搜索:
    • OWASP Agentic Top 10适配:将每条安全威胁映射为图上的特定路径模式。例如,“内存投毒”对应Memory Node ← [污染边] ← Action Node模式。
    • 路径级审计:审计员只需查询匹配特定模式(如目标节点 → 推理轨迹节点 → 动作节点 → 工具节点)的路径,即可一键定位可疑行为链。
  • 输入攻击场景(如“跨会话内存投毒”),系统自动从图结构中提取出:“Session A的写入操作 → Memory节点 → Session B的读取操作” 的完整路径,而无需人工关联多个日志文件。

3. OpenClaw插件实现:真实环境的审计落地

  • 论文在OpenClaw智能体环境中实现了Agent-BOM审计插件。该插件在Agent执行过程中实时捕获事件并构建图。
  • 性能开销:引入的额外延迟<5%,完全可部署于生产环境。
点击展开技术细节与图结构示例

图结构表示(简化示例)

1
2
3
4
5
6
(Agent) ──[拥有]──▶ (工具: SQL Editor)
(Agent) ──[执行]──▶ (目标: "获取用户列表")
(目标) ──[推理]──▶ (推理步骤: "构造SELECT语句")
(推理步骤) ──[触发]──▶ (动作: 调用SQL Editor)
(动作) ──[操作]──▶ (工具: SQL Editor)
(动作) ──[输出]──▶ (Memory: "用户列表")

关键安全属性模型:每个边可携带 {权限范围, 污染标记, 信任等级} 等属性,使得审计查询可以精准过滤出“高权限工具被低级动作调用”等异常模式。

攻击链重构示例(跨会话内存投毒): 查询条件:(Memory) - [污染边] -> (Memory) 命中路径:Session_A_action (写入恶意Prompt) → Session_A_targets_Memory → Memory Node → Session_B_collaborator_Memory → Session_B_action (读取恶意Prompt)


【未来展望】

Agent-BOM为LLM Agent安全审计打开了一扇新的大门,但前路并非坦途:

技术趋势预测
  • 标准化竞赛:Agent-BOM有望成为行业标准化的“Agent物料清单”格式,未来可能被OWASP等组织纳入安全实践指南。
  • 图神经网络审计:基于Agent-BOM的图结构,可训练GNN模型自动识别未知的复杂攻击模式,实现从被动审计到主动威胁狩猎的转变。
  • 跨Agent生态系统治理:在多Agent协作场景下,Agent-BOM的级联建模能力可成为Agent间安全策略网关的核心组件,自动阻断信任链上的风险传播。
  • 实时防御闭环:未来可将Agent-BOM与运行时监控结合,在发现“可疑路径模式”时即时阻断Agent行为,实现**从“事后审计”到“实时阻断”**的进化。
挑战潜在解决方案成熟度预估
复杂Agent架构适配不同框架(LangChain, AutoGPT)的图映射差异1-2年 (半标准化)
动态图规模爆炸分层采样 + 时间窗口压缩2-3年 (工程优化)
隐私与日志合规图节点差分隐私加密3-5年 (需法规配合)
最后忠告
在Agent变得越来越聪明之前,我们可能更需要一张能看清它在做什么的“地图”。Agent-BOM正是这张地图,而每个AI安全从业者,都应该学会如何查图。

阅读原文https://arxiv.org/abs/2605.06812