论文基本信息
论文标题:Hybrid Network Using Dynamic Graph Convolution and Temporal Self-Attention for EEG-Based Emotion Recognition
作者:Cheng Cheng, Zikang Yu, Yong Zhang, Lin Feng
期刊:IEEE Transactions on Neural Networks and Learning Systems
发表时间:December 2024
卷期号:Vol.35, No.12
页码范围:18565-18575
DOI:10.1109/TNNLS.2023.3319315
研究问题与核心贡献
待解决的关键问题
在基于脑电图(EEG)的情绪识别领域,传统方法普遍存在建模视角单一的问题。多数现有模型仅聚焦于EEG信号的空间结构特性(如电极间的功能连接关系),或仅关注其时间动态变化,缺乏对空间与时间维度特征的联合建模能力。这种分离式处理方式难以充分挖掘EEG数据中蕴含的复杂情感信息,从而制约了识别准确率的进一步提升。
主要创新点
- 提出新型混合网络架构HN-DGTS:首次将动态图卷积与时间自注意力机制融合,实现空间-时间特征的协同学习。
- 设计动态图卷积模块(DGC):构建可随训练过程自适应调整的大脑功能连接图结构,突破固定拓扑的限制。
- 引入时间自注意力模块(TSAR):有效捕捉EEG序列中的长程时间依赖,并自动聚焦于情感表达关键时段。
- 构建分层交叉注意力融合机制(H-CAF):通过多层次交互整合空间与时间模态的互补特征。
- 实现端到端优化框架:支持邻接矩阵通过反向传播进行动态更新,增强模型整体适应性与泛化能力。
方法详解:HN-DGTS混合网络架构
HN-DGTS的整体设计围绕三个核心模块展开,旨在全面提取并融合EEG信号中的空间拓扑和时间演化特征,以提升情绪分类性能。
1. 动态图卷积模块(DGC)深度解析
脑功能网络构建流程
DGC模块首先从原始EEG信号中构建反映大脑功能连接的动态图结构,具体步骤如下:
时间窗口划分:将连续EEG信号切分为多个非重叠的时间段,每段持续t秒,用以捕获功能连接的时变特性。
微分熵特征提取:在每个时间窗内计算各通道的微分熵(Differential Entropy, DE),该特征能有效表征神经活动的能量分布状态,已被广泛验证适用于情绪识别任务。
皮尔逊相关系数(PCC)计算:基于不同通道间的信号相关性构建初始功能连接矩阵,公式如下:
其中x与y表示两个EEG通道信号,cov代表协方差,μ和σ分别为均值与标准差。
图结构优化与增强策略
拉普拉斯矩阵生成:为提升图卷积的稳定性与泛化性,将邻接矩阵转换为归一化的拉普拉斯形式:
其中A^f?为单位化邻接矩阵,D^为对应的度矩阵。
多头自注意力加权机制:引入注意力机制动态调整边权重,增强重要连接的影响力:
WQ和WK为可学习的线性投影参数,d为缩放因子。
融合增强的拉普拉斯矩阵:结合传统图结构与注意力权重,形成更鲁棒的图表示:
λ为平衡超参数,控制两种来源信息的融合比例。
动态图卷积操作定义
采用多层图卷积结构,每一层执行如下变换:
其中Xs(m)?表示第m层输出,W(m)为该层可训练参数,σ为ReLU激活函数,实现非线性特征映射。
2. 时间自注意力表示模块(TSAR)技术实现
输入重构与维度变换
为突出时间维度的信息价值,TSAR模块首先对输入数据[N×C×D]进行转置处理,变为[N×D×C]格式,使时间步成为主要序列轴。
自注意力机制实现细节
查询、键、值向量生成:
注意力权重计算:通过点积注意力获取不同时间步之间的关联强度:
加权聚合输出特征:
残差连接与归一化设计
为缓解深层网络训练中的梯度退化问题,模块集成残差连接结构:
前馈网络增强:在注意力层后接入由两个全连接层构成的FFN模块,配合ReLU激活函数进一步提取高阶非线性时间特征:
3. 分层交叉注意力融合(H-CAF)模块创新设计
交叉注意力机制原理
H-CAF摒弃传统的自注意力模式,转而采用跨模态的交叉注意力机制,使得空间特征可以引导时间特征的聚焦,反之亦然,实现双向信息调制。
基础交叉注意力单元定义:
其中Q来自一个模态的查询表示,K和V则来源于另一模态的键值对。
层级化融合架构
模块采用对称的多级结构,每一层级包含两个方向相反的CAF单元:
该设计促使空间与时间特征在多个抽象层次上反复交互,最大化利用二者之间的互补性,实现深度融合。
4. 动态更新机制与训练策略
邻接矩阵的可学习更新机制
HN-DGTS的关键优势之一在于图结构参数(邻接矩阵)可在训练过程中动态优化:
梯度反向传播路径:
更新规则:基于梯度下降法对邻接矩阵进行迭代更新:
其中ρ表示学习率,μ为正则化系数,防止过度拟合。
损失函数与优化方案
模型采用标准交叉熵损失函数,并加入L2正则项以提升泛化性能:

本研究采用Adam优化器,初始学习率为0.01,模型训练共进行300个epoch,并引入dropout层(dropout率设为0.5)以有效防止过拟合现象。
实验验证与性能分析
数据集配置与预处理
为全面评估模型性能,实验在三个公开的EEG情绪识别数据集上展开:
- DEAP数据集:包含32名受试者在观看40段音乐视频过程中采集的脑电数据,基于arousal与valence二维情感模型,执行二分类任务。
- SEED数据集:涉及15名受试者,通过15段视频诱发三种情绪状态——正性、中性和负性。
- SEED-IV数据集:同样包含15名受试者,使用24段视频诱导四种情绪类别:喜悦、悲伤、恐惧和中性。
消融实验分析
通过消融实验系统地评估各模块对整体性能的贡献:
结果表明,完整版HN-DGTS模型在所有测试场景下均优于仅使用DGC或TSAR单一模块的变体,验证了多模态融合策略的有效性与必要性。
多频段性能比较
不同脑电频率波段对情绪识别任务的影响存在差异:
高频波段(如β和γ)表现出更强的情绪判别能力,而融合多个频段信息后,在SEED及SEED-IV数据集上取得了最优识别准确率。
混淆矩阵与错误分析
模型在不同情绪类别上的分类效果有所差异:
实验发现,模型对负面情绪(如悲伤、恐惧)具有更高的识别敏感度,这一现象与情感神经科学领域的已有研究成果相一致。
与先进方法的对比分析
HN-DGTS在三个基准数据集上均显著优于当前主流方法。具体表现为:在DEAP数据集的valence维度达到89.98%的准确率;在SEED三分类任务中准确率达97.53%;在SEED-IV四分类任务中更是达到了98.97%的高精度,展现出卓越的泛化能力与竞争力。
技术优势与创新价值
- 全面性:首次将空间拓扑结构优化与时间动态特征提取统一于同一框架中,实现双维度协同建模。
- 自适应性:引入动态图卷积机制,使模型能够根据输入信号自适应调整大脑功能连接模式。
- 可解释性:结合注意力机制,提供关键特征权重的可视化输出,增强模型决策过程的透明度。
- 实用性:端到端的学习架构简化了部署流程,具备良好的实际应用潜力。
局限性与未来方向
当前模型仍依赖于大规模标注数据进行训练,限制了其在低资源场景下的适用性。未来的研究可探索小样本学习、半监督学习等范式以缓解标注成本问题。此外,融合多模态生理信号(如心率、肌电)或外部行为线索(如面部表情)有望进一步提升模型性能。
本研究为基于EEG的情绪识别任务设立了新的技术标杆,其提出的创新架构不仅提升了识别精度,也为后续相关领域的研究提供了有价值的参考路径。