动态融合感知图卷积网络：多模态对话情感识别的范式革新

导读

本文提出了一种创新的动态融合感知图卷积神经网络，旨在解决多模态对话情感识别中的核心挑战。传统方法在处理文本、音频、视觉等多模态特征时，常采用静态、固定的融合策略，忽视了情感表达的动态性与模态间交互的复杂性。本研究通过引入常微分方程与全局信息向量引导的动态融合机制，赋予模型根据具体情感类别与对话上下文自适应调整参数的能力，从而在多个公开数据集上实现了显著的性能提升，为情感计算领域开辟了新的技术路径。

核心突破

DF-GCN模型的核心创新在于“动态融合”与“图结构演化”的有机结合。 它不再将图卷积网络的参数视为静态，而是将其建模为一个随时间（或对话轮次）演化的动态系统。通过全局信息向量生成的提示，模型能针对每一轮话语的独特情感语境，动态地调整多模态特征的融合权重与图卷积的传播方式，实现了参数与情感类别的解耦，从而更精准地捕捉复杂对话中的细微情感变化。

深度解析

1. 问题定义与技术瓶颈

多模态对话情感识别旨在从连续的、多人参与的对话中，结合文本、语音、视觉等信息，准确识别每一话语的情感标签。其核心挑战在于：

模态异质性：不同模态（如离散的文本词向量与连续的声学特征）在特征空间中的分布与语义存在巨大差异。
上下文依赖性：当前话语的情感高度依赖于历史对话内容、发言者身份及交互关系。
情感动态性：对话中的情感是流动且相互影响的，固定模型难以适应从“快乐”到“愤怒”的快速转变。

现有基于图卷积网络的方法虽能建模发言者间的依赖关系，但其融合层与图卷积层的参数是固定不变的。这导致模型在训练时被迫在所有情感类别上寻求一个“折中”的参数集，限制了其对特定情感（尤其是少数类别或复杂情感）的识别能力。

2. DF-GCN 架构精要

DF-GCN 模型架构主要包含三大核心模块：

多模态特征提取与编码器：分别使用预训练模型（如BERT、Wav2Vec2、ResNet）提取文本、音频、视觉的特征表示。
全局信息向量与动态提示生成器：此模块是动态融合的“大脑”。它聚合当前话语的上下文信息（包括历史话语、发言者等），生成一个全局信息向量。该GIV随后通过一个轻量级网络生成一组动态提示向量，这些提示将指导后续融合与图卷积过程。
动态融合感知图卷积网络：这是模型的核心创新点。它由两部分构成：
1. 动态特征融合模块：利用动态提示，为当前话语的各个模态特征计算自适应的融合权重，实现模态特征的动态加权组合。
2. 基于ODE的图卷积演化模块：将话语交互图（节点为话语，边为发言者关系或语义相关性）上的信息传播过程，建模为一个常微分方程初值问题。动态提示作为ODE系统的控制信号，使得图卷积核的参数能够随着对话的推进而连续变化。

点击展开技术原理

令 \( \mathbf{H}^{(t)} \) 表示图在时间步 \( t \) 的节点（话语）特征矩阵，\( \mathbf{A} \) 为图的邻接矩阵。传统的GCN层操作可简化为 \( \mathbf{H}^{(t+1)} = \sigma(\mathbf{\hat{A}} \mathbf{H}^{(t)} \mathbf{W}) \)，其中 \( \mathbf{W} \) 是固定的权重矩阵。

在DF-GCN中，这一离散更新过程被连续化。我们定义节点特征的演化由ODE描述： [ \frac{d\mathbf{H}(t)}{dt} = f(\mathbf{H}(t), t, \mathbf{P}; \theta) ] 其中 ( f ) 是一个由神经网络参数化的函数，( \mathbf{P} ) 是由全局信息向量GIV生成的动态提示，( \theta ) 是基础参数。通过ODE求解器（如龙格-库塔法），我们可以从初始特征 ( \mathbf{H}(0) ) 积分得到最终所需的节点表示 ( \mathbf{H}(T) )。提示 ( \mathbf{P} ) 会直接影响函数 ( f ) 的行为，从而实现图卷积过程的动态化。

3. 实验验证与性能对比

研究在 IEMOCAP 和 MELD 两个广泛使用的多模态对话情感数据集上进行了全面实验。DF-GCN模型与一系列基线模型进行了对比，结果如下表所示：

模型	IEMOCAP (加权平均F1)	MELD (加权平均F1)	核心特点
DF-GCN (Ours)	68.7%	65.2%	动态融合，ODE引导的图演化
DialogueGCN	64.1%	60.8%	静态图卷积，建模发言者依赖
MMGCN	65.9%	62.1%	多模态图卷积，静态融合
ConGCN	66.3%	63.5%	上下文感知图卷积
提升幅度	+2.4% ~ +4.6%	+1.7% ~ +4.4%	显著优于所有静态模型

实验洞察

消融实验进一步证实了各模块的有效性：移除动态融合机制导致性能下降约1.8%；将ODE图卷积替换为静态GCN导致性能下降约2.5%。这表明动态性是模型性能增益的主要来源，且动态融合与动态图卷积二者相辅相成，共同作用。

未来展望

技术演进方向

计算效率优化：ODE求解过程可能带来额外的计算开销。未来研究可探索更高效的自适应步长求解器或神经常微分方程的近似方法，以利于实时应用。
跨语言与文化泛化：当前模型在英语数据集上验证。将其应用于语言、表达习惯差异巨大的文化背景中，并研究动态融合机制的跨域适应性，是一个充满前景的方向。
更细粒度的情感分析：未来可将动态融合机制应用于维度情感模型，以连续值（如效价、唤醒度、支配度）来刻画情感，而非离散类别，从而捕捉更丰富的情感状态。

引发的思考

DF-GCN的成功引出了一个更深层的问题：在人工智能迈向更人性化交互的进程中，我们是否需要为模型赋予这种内在的“动态适应性”？这种模仿生物系统应对复杂环境变化的机制，是否会成为下一代感知与决策模型的标配？

挑战与局限

尽管性能卓越，DF-GCN仍面临挑战：其性能高度依赖于高质量的多模态数据，在某个模态严重缺失或噪声极大的场景下，动态融合机制可能不稳定。此外，模型的可解释性仍有待加强——我们如何直观理解动态提示究竟引导模型“关注”了什么？

总而言之，DF-GCN通过将动态系统理论与图神经网络巧妙结合，为多模态情感识别提供了强大的新工具。它不仅仅是一个性能更高的模型，更代表了一种让AI模型参数“活”起来的设计哲学，为处理时序、交互、多源异构信息的复杂任务提供了富有启发性的蓝本。

阅读原文：https://arxiv.org/abs/2603.22345