注意力通道关闭：LLM在多轮交互中如何丢失上下文

核心发现

这篇来自arXiv 2605.12922的研究首次从机制层面揭示了大型语言模型在多轮对话中“失忆”的根本原因——并非信息丢失，而是注意力通道关闭导致目标定义token变得不可访问。研究者提出了**目标可访问性比(GAR)**作为诊断工具，并在多种架构上验证了这一现象。

【导读】大语言模型在单轮交互中表现出色，但在长时间的多轮对话中，往往会逐渐“丢失线索”——忘记指令、角色设定或规则。以往研究仅从行为层面描述了这种退化，而本文首次从机制层面给出了解释。

团队提出一个“通道转换”理论：在对话前期，定义目标的token通过注意力机制被有效访问；但随着对话进行，这些token的注意力权重逐渐关闭，尽管目标相关信息可能仍以编码形式保留在残差流中。他们引入了一个新的诊断指标——目标可访问性比(Goal Accessibility Ratio, GAR)，用以测量生成token对任务定义目标token的注意力比例。

【核心突破】研究发现了三个关键机制：

注意力通道关闭：随着对话轮次增加，模型对初始指令token的注意力权重系统性下降，呈现出可预测的“交叉点”
残差流中的幸存信息：即使注意力通道关闭，目标相关信息仍可在线性投影的残差表示中被解码
架构依赖的失败模式：不同架构在注意力关闭后表现出截然不同的行为

模型架构	注意力关闭后行为	残差可解码性	关键失效层
Llama系列	目标条件行为部分保留	较高	第8-12层
Mistral	行为快速崩溃	中等	第4-7层
GPT系列	行为缓慢退化	高	第15-20层
小型模型	立即失效	低	第2-3层

关键实验

在20条事实保留任务中，当研究者强制关闭Mistral的注意力通道时，召回率从近乎完美（~100%）骤降至11%。同时，角色约束违反率甚至超过了未施加用户压力的对抗性基线。这些影响都精确出现在预测的交叉轮次。

【深度解析】

GAR指标详解

目标可访问性比(GAR)定义为：在所有解码层中，生成token对任务定义目标token的注意力权重之和，除以对所有token的注意力权重之和。当GAR低于某个阈值时，模型开始表现出“失忆”行为。

研究团队设计了精巧的消融实验来验证因果机制：

滑窗消融：通过滑动窗口逐轮关闭对早期token的注意力，精确测量每轮的影响
残差流探针：在残差流的不同层训练线性探针，检测目标信息是否可解码
强制注意力关闭：直接修改注意力权重，验证因果关系

点击展开原理

具体的实验设计包括： - 对Mistral模型，在20条事实保留任务中逐轮跟踪GAR值 - 在第4轮左右（预测的交叉点）强制关闭注意力通道 - 测量召回率和约束违反率的变化 - 发现即使输入嵌入层完全无法解码目标信息，更深层的残差表示仍能以**AUC高达0.99**的准确率解码出每轮召回结果

不同架构的关键差异体现在“注意力-残差解码差距”上：

差距小（如Llama系列）：模型能在注意力关闭后维持部分目标条件行为
差距大（如Mistral）：注意力关闭导致行为迅速崩溃，尽管残差中仍有信息

为什么不同架构表现不同？

答案在于残差流的信息组织方式。某些架构（如Llama）更依赖残差连接来传递目标信息，而另一些（如Mistral）则更依赖注意力机制。当注意力通道关闭时，前者能更有效地从残差中“提取”幸存信息。

【未来展望】这项研究为LLM的长上下文理解提供了全新的机制视角和诊断工具：

新型架构设计：发展能够维持注意力通道长期开放的注意力机制变体，或增强残差流的信息编码能力
训练策略优化：基于GAR指标设计对抗训练，使模型在多轮交互中保持对早期目标的关注
推理时干预：在GAR低于阈值时主动注入早期目标信息，或调整注意力权重
混合架构：结合不同架构的优势，在注意力关闭后仍能有效利用残差信息

实践建议

对于使用LLM进行多轮对话的应用开发者，这项研究提示：在关键轮次（通常在第4-8轮之间）主动重新注入上下文信息，可以显著提升模型的长对话表现。

研究者已将GAR作为通用诊断工具开源，为社区提供了预测并可能缓解多轮对话“失忆”问题的参数化框架。这标志着从“描述现象”到“理解机制”的重要跨越。

阅读原文：https://arxiv.org/abs/2605.12922