当前位置:中国传播网 -> 国内

面与解心团队研发基于多模态深度学习及语言大模型的情感识别

发布时间:2024-10-23   来源:网络   阅读:1826

在党的二十大报告中,总书记提出“重视心理健康和精神卫生。”,并设定了2022年和2030年心理健康素养水平的目标。国家卫健委也出台相关政策,以提高心理健康服务。

随着经济的发展和生活品质的提升,心理健康问题日益受到广泛关注。工作压力、学业负担以及老年人的孤独感等成为影响心理健康的关键因素。

image.png

图 1  2023年心理相关行业发展情况

基于此,华侨大学创新创业实践团队研发了基于多模态深度学习及语言大模型的情感识别系统,下图为研究方法。

image.png

图 2 研究方法

团队提出了一种基于多模态深度学习及语言大模型的情感识别系统。首先,针对输入的每一个序列,通过BERT和xLSTM对文本、视觉和声学模态提取特征,生成标准化的表示向量。随后,这些特征被分别输入到模态不变和模态特定的子空间中,生成六个隐藏表示。通过多头注意力机制的Transformer对多模态信息进行融合,最终通过全连接层实现情感分类。模型通过相似度损失、差异损失、重构损失和任务损失提高了识别精度和泛化能力。提出方法的体系结构如图所示。

image.png

图 3 模型核心

该项目的创新点主要体现在特征处理的优化上,包括使用xLSTM替代传统LSTM模型,并采用ReLU激活函数取代原有的Sigmoid激活函数。同时,华侨大学创新创业实践团队还对融合模块进行了改进,以进一步提升模型的性能和精度。所有改进已在公共数据集上得到了有效验证。

根据实验结果可知,在MOSI数据集上,xMISA相较于基线模型精度有一定的提升,预测误差有所降低并且相关性有所增强,尤其在二分类精度和七分类精度方面表现出色,这表明模型的预测能力和精度有所提升。

image.png

表 1 MOSI数据集精度

在MOSEI数据集上,xMISA总体上性能也有所提高。主要表现在预测精度和分类准确性上,尤其是在二分类和七分类任务中,显著超越了基线模型的表现。

image.png

表 2 MOSEI数据集精度

未来华侨大学创新创业实践团队希望能够捕捉到更加细微且多维度的变化,对检测人员的生理状况进行更加精准的评估,对检测者提供合理建议。

image.png

图 4 应用场景