基于深度学习的语音抑郁倾向识别研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:zkteacher
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
抑郁症是新时代的沉默杀手,以显著而持久的心境低落、丧失兴趣或愉悦感为主要临床特征。被抑郁症困扰的患者给自己、家庭及朋友带来巨大的心理压力,甚至可导致一系列严重后果。据统计,抑郁症影响着全世界4%以上的人口,且终身患病率高达6.8%,截至2021年抑郁症在心理健康疾病中排名第四。与其极高的发病率和风险性不匹配的是该领域落后的治疗现状。作为一种发病机制尚不明确的精神性疾病,目前对抑郁症的临床诊断仍依靠医师的经验和量表等定性评估方法。随着抑郁症的日益流行,促使心理健康领域专家开发和探索客观评估工具实现抑郁症的定量化精准诊疗。然而,以往大多数研究聚焦于抑郁症患者,忽略了对抑郁倾向群体的研究。但当下抑郁倾向人群心理健康异常占比更大,对该群体进行准确识别,继而进行及时干预,可有效阻断向抑郁症的转化。抑郁倾向患者语音往往单调、缓慢和低沉,将语音作为抑郁倾向诊断指标可为临床医生提供一个新的切入点。此外,语音作为一种评估工具可避免直接与患者接触,这有利于数据的生态有效性。针对以上问题,本文基于抑郁被试的语音特点,对抑郁倾向被试状态识别问题展开研究,构建抑郁倾向语音数据集,提取能准确刻画抑郁倾向的语音特征。通过语音信号对不同严重程度的抑郁倾向被试进行研究,推进了对抑郁倾向识别研究的深入理解。在此基础上建立深度学习模型,验证基于语音信号的抑郁倾向状态研究的有效性,通过分类评价指标从设计语料的多元化对模型性能进行评价,为语音信号在临床抑郁倾向的诊疗提供可能性。本论文的主要工作与创新如下:1.抑郁倾向语音数据集的构建。针对抑郁倾向识别领域开源数据集空白的问题,本文借助心理学自我参照效应范式和自传体记忆提取范式建立健康对照和抑郁倾向同步数据集。实验招募被试144名,剔除掉不符合实验要求的11名被试,剩余有效数据中抑郁倾向被试66名和健康对照组67名(其中包括男性被试64名,女性被试69名),采集的语音数据的总时长为179.9小时为识别研究提供数据支撑。首先,根据抑郁倾向被试的语音特点优化数据采集方案,提出基于不同刺激材料的语音采集方法;其次,为从语料数据进行多元化抑郁倾向预测分析,设计不同情绪效价(正性、中性和负性)和自我加工异常的实验方案,并考虑性别会对结果产生影响,在男女性别上做到了很好的匹配;然后,针对在抑郁倾向程度预测方面缺乏相应研究,数据采集时将被试划分为四个不同组别,为进行语音信号抑郁倾向程度预测研究提供数据基础;最后,对采集的语音数据整理归档,构建适合实验需求的数据集。2.基于残差神经网络(Residual Neural Network,Res Net)的语音抑郁倾向识别研究。残差结构的考虑避免了由网络层数加深导致的梯度消失问题。从录制的语音信号中分别提取语音信号的语谱图和梅尔频率倒谱系数(Mel-frequency cepstral coefficients,MFCC)特征,将其分别输入到Res Net网络中,从不同任务类型、不同性别和自我加工异常方面对实验结果进行对比分析。实验结果表明,自发式的言语方式识别结果优于朗读式识别结果;女性被试识别结果优于男性被试识别结果;自我条件下抑郁倾向识别结果优于他人条件下识别结果,F1分数在60%以上,最高达到97.06%。此外,在预测抑郁倾向严重程度任务,健康对照和轻度抑郁倾向样本能够被正确归类。3.基于Res Net_LSTM网络的语音抑郁倾向识别研究。考虑到语音信号的上下文关系及时序信息,在Res Net基础上加入长短期记忆网络(Long Short-Term Memory,LSTM)。利用LSTM单元充分利用数据的时序信息和自适应处理动态信息的能力有效解决原始数据维度较高使得模型难以训练的问题。实验结果表明,与Res Net识别结果进行对比,考虑时序信息后,针对性别因素进行分析时,女性的识别准确率整体优于男性,在模型Res Net34-LSTM负性情绪且性别为女性时,识别准确率达到90.16%,其他的分类指标也均高于80%。4.基于Res Net_CBAM网络的语音抑郁倾向识别研究。在残差基础上加入注意力机制使网络关注到更全面的信息,弥补Res Net在关注局部信息方面的缺陷性,不同维度的注意力机制,动态调整不同尺度特征的空间、通道权重,学习丰富的上下文信息并抑制冗余信息,增强网络提取特征的能力。实验结果表明,情绪语句和词汇朗读任务在区分抑郁倾向中表现略差于其他刺激材料,图片描述在三个模型中表现最好,其次是自传体记忆测试材料和访谈任务。对于重度抑郁倾向程度识别,在正性和负性情绪下,识别准确率在50%以上甚至达到了93%。
其他文献
随着互联网和信息技术等的发展,各行各业的图像数据呈现爆炸式的增长,如何高效的检索图像就显得尤为重要。当前,大规模图像检索已经成为计算机视觉领域的研究热点,推动着各行各业的发展。其中,基于哈希的图像检索由于其存储空间小、检索速度快等特点,成为大规模图像检索领域中的重要方向。但是,基于哈希的图像检索仍然存在一些研究难点。图像特征的提取、哈希函数的设计、复杂数据输入的适应等问题,成为制约哈希检索的关键。
学位
图像超分辨率是计算机视觉中增强图像和视频分辨率的一类重要图像处理技术,图像超分辨率是指由一幅低分辨率图像或图像序列恢复出高分辨率图像。但是图像超分辨率是一个非常具有挑战性的任务,因为图像超分辨率是一个不适定性问题,即给定一个低分辨率图像,它存在着许多种不同的高分辨率解,因此一个清晰的稳定的高分辨率图像往往是难以得到的。针对超分辨率任务中低分辨率图像深度特征表达问题以及超分辨率增强后的图像主观质量问
学位
人体胃肠道的症状与精神、心理因素密切相关,越来越多的研究发现精神、心理因素在胃肠道疾病发生与发展中发挥一定作用。焦虑或抑郁情绪严重影响消化系统疾病患者的生活质量及预后,精神状态的异常往往影响疾病的治疗进展,给临床医生带来极大困扰。精神心理和消化系统疾病同时治疗,往往能够取得令人满意的效果。焦虑症是一种常见的精神类疾病,发病率逐渐增高,常与功能性胃肠病共同存在,两者关系密切,甚至互为因果。功能性胃肠
期刊
报纸
尘埃等离子体由中性气体分子、电子、离子和微米大小的带电尘埃颗粒组成,其广泛存在于地球电离层、星际空间和行星环中。由于尘埃等离子体中尘埃颗粒与高能粒子(电子和离子)之间产生的充电效应,使得电磁波在尘埃等离子体中的传输要比在普通等离子体中更为复杂,也出现了许多新的现象,例如尘埃激波、尘埃空洞等。在空间通信领域当电磁波信号通过尘埃等离子体环境时,该环境会使入射的电磁波产生折射、反射和散射,同时会造成电磁
学位
合成孔径雷达(Synthetic Aperture Radar,SAR)是应用合成孔径原理的主动式微波成像雷达,具有高分辨率、全天时、全天候、远距离等工作特性,在对海洋区域的舰船目标进行连续长期的动态侦测任务中发挥着重要作用。随着SAR成像技术的发展,可以获取更多不同波段和极化方式下的舰船目标和背景信息,这对SAR图像舰船目标检测算法的性能提出了更高的要求。面对场景复杂且尺度多变的SAR图像舰船目
学位
大型电商平台的“二选一”行为是近些年的热门话题,不少学者在法理上对其进行了分析,国家对其的法律规制也逐渐收紧,但这种行为并未因此而消失,反而呈多态发展趋势。“二选一”行为的直接和主要影响对象是平台内商家和行为实施者的竞争对手,但这种行为连带阻碍了市场中的中小型电商平台企业的发展。“互联网+中小企业”是我国市场发展的重要战略,作为新经济新业态的发展动能,中小型电商平台企业对我国经济增长、增加就业的宏
学位
<正>中国高校大学英语教学面临任务繁重、课时缩减的困境,学生即便通过了大学英语四级和六级考试,也难以避免交流障碍,仅仅依靠有限的课堂教学难以完成语言技能发展的目标和学生学习工作中的实际需要,亟需现代教育技术辅助大学英语教学的发展。随着5G网络和智能终端的普及,移动互联网已经实现网随人动,信息时代的新型基础设施建设不断推进,为大学英语教学数字化和智慧化发展提供了必要的设施基础和技术条件。
期刊
大数据、云计算、人工智能等技术的广泛应用,使得数字技术助力普惠金融成为一种可能。传统金融行业主要依靠物理营业网点经营,以存贷业务为核心,经营成本高昂,服务范围受限。数字技术的发展,拓展了原有的金融服务范围,拓宽了金融服务的边界。数字普惠金融的推广关键在于信息技术,而信息技术天然就是存在差距的,这便形成了数字鸿沟。目前数字普惠金融的发展中仍然存在很多问题,互联网使用成本高、金融教育不足、消费者金融素
学位
功能性胃肠疾病的发病率逐年上升,其发病机制尚未明确,西医治疗该病缺乏特异性,疗效不明显,且易复发,中医治疗该病的优势逐渐凸显,通过查阅文献了解该病的发生与多种因素有关,其中精神心理因素在其发病中的作用不断被证实,不少学者也将其定义为一种身心疾病。肝主疏泄,具有调节全身脏腑气机,调畅情志的功能,肝失疏泄上逆乘脾,除出现急躁易怒、闷闷不乐、悲忧欲哭等情绪变化外,还会导致纳呆少食、嗳气吞酸、腹痛、腹胀、
期刊