论文部分内容阅读
抑郁症是新时代的沉默杀手,以显著而持久的心境低落、丧失兴趣或愉悦感为主要临床特征。被抑郁症困扰的患者给自己、家庭及朋友带来巨大的心理压力,甚至可导致一系列严重后果。据统计,抑郁症影响着全世界4%以上的人口,且终身患病率高达6.8%,截至2021年抑郁症在心理健康疾病中排名第四。与其极高的发病率和风险性不匹配的是该领域落后的治疗现状。作为一种发病机制尚不明确的精神性疾病,目前对抑郁症的临床诊断仍依靠医师的经验和量表等定性评估方法。随着抑郁症的日益流行,促使心理健康领域专家开发和探索客观评估工具实现抑郁症的定量化精准诊疗。然而,以往大多数研究聚焦于抑郁症患者,忽略了对抑郁倾向群体的研究。但当下抑郁倾向人群心理健康异常占比更大,对该群体进行准确识别,继而进行及时干预,可有效阻断向抑郁症的转化。抑郁倾向患者语音往往单调、缓慢和低沉,将语音作为抑郁倾向诊断指标可为临床医生提供一个新的切入点。此外,语音作为一种评估工具可避免直接与患者接触,这有利于数据的生态有效性。针对以上问题,本文基于抑郁被试的语音特点,对抑郁倾向被试状态识别问题展开研究,构建抑郁倾向语音数据集,提取能准确刻画抑郁倾向的语音特征。通过语音信号对不同严重程度的抑郁倾向被试进行研究,推进了对抑郁倾向识别研究的深入理解。在此基础上建立深度学习模型,验证基于语音信号的抑郁倾向状态研究的有效性,通过分类评价指标从设计语料的多元化对模型性能进行评价,为语音信号在临床抑郁倾向的诊疗提供可能性。本论文的主要工作与创新如下:1.抑郁倾向语音数据集的构建。针对抑郁倾向识别领域开源数据集空白的问题,本文借助心理学自我参照效应范式和自传体记忆提取范式建立健康对照和抑郁倾向同步数据集。实验招募被试144名,剔除掉不符合实验要求的11名被试,剩余有效数据中抑郁倾向被试66名和健康对照组67名(其中包括男性被试64名,女性被试69名),采集的语音数据的总时长为179.9小时为识别研究提供数据支撑。首先,根据抑郁倾向被试的语音特点优化数据采集方案,提出基于不同刺激材料的语音采集方法;其次,为从语料数据进行多元化抑郁倾向预测分析,设计不同情绪效价(正性、中性和负性)和自我加工异常的实验方案,并考虑性别会对结果产生影响,在男女性别上做到了很好的匹配;然后,针对在抑郁倾向程度预测方面缺乏相应研究,数据采集时将被试划分为四个不同组别,为进行语音信号抑郁倾向程度预测研究提供数据基础;最后,对采集的语音数据整理归档,构建适合实验需求的数据集。2.基于残差神经网络(Residual Neural Network,Res Net)的语音抑郁倾向识别研究。残差结构的考虑避免了由网络层数加深导致的梯度消失问题。从录制的语音信号中分别提取语音信号的语谱图和梅尔频率倒谱系数(Mel-frequency cepstral coefficients,MFCC)特征,将其分别输入到Res Net网络中,从不同任务类型、不同性别和自我加工异常方面对实验结果进行对比分析。实验结果表明,自发式的言语方式识别结果优于朗读式识别结果;女性被试识别结果优于男性被试识别结果;自我条件下抑郁倾向识别结果优于他人条件下识别结果,F1分数在60%以上,最高达到97.06%。此外,在预测抑郁倾向严重程度任务,健康对照和轻度抑郁倾向样本能够被正确归类。3.基于Res Net_LSTM网络的语音抑郁倾向识别研究。考虑到语音信号的上下文关系及时序信息,在Res Net基础上加入长短期记忆网络(Long Short-Term Memory,LSTM)。利用LSTM单元充分利用数据的时序信息和自适应处理动态信息的能力有效解决原始数据维度较高使得模型难以训练的问题。实验结果表明,与Res Net识别结果进行对比,考虑时序信息后,针对性别因素进行分析时,女性的识别准确率整体优于男性,在模型Res Net34-LSTM负性情绪且性别为女性时,识别准确率达到90.16%,其他的分类指标也均高于80%。4.基于Res Net_CBAM网络的语音抑郁倾向识别研究。在残差基础上加入注意力机制使网络关注到更全面的信息,弥补Res Net在关注局部信息方面的缺陷性,不同维度的注意力机制,动态调整不同尺度特征的空间、通道权重,学习丰富的上下文信息并抑制冗余信息,增强网络提取特征的能力。实验结果表明,情绪语句和词汇朗读任务在区分抑郁倾向中表现略差于其他刺激材料,图片描述在三个模型中表现最好,其次是自传体记忆测试材料和访谈任务。对于重度抑郁倾向程度识别,在正性和负性情绪下,识别准确率在50%以上甚至达到了93%。