基于深度学习的婴儿啼哭情感分析研究

来源 :沈阳化工大学 | 被引量 : 0次 | 上传用户:mengdewei6677
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感分析是人工智能领域中自然语言处理的重要研究方向之一,近年来备受国内外研究机构和相关人员的关注。情感分析包括面向文本、面向图片、面向视频、面向语音等各个方面。由于语音是人类最原始最直接的交流方式,包含着人类丰富的情感,所以语音的情感分析尤为重要。本文将婴儿哭声的情感分析作为研究背景,目的是找到可以对婴儿哭声的情感进行自动识别的智能模型。通过智能模型实现对婴儿身体健康状况、心理发展及精神状态做出准确的判断,从而能有效的帮助婴儿健康成长,本课题的研究具有重要的理论意义和实际应用价值。本文在前人研究的基础上,针对婴儿啼哭情感分析需要解决的有关问题,主要做了以下几方面工作:(1)针对现如今未制定出一个规范的,标准化的婴儿哭声数据库所导致的研究人员在划分婴儿哭声类别时出现差异的问题,本文查阅了大量文献,并在此基础上进行了分析与研究。根据丹斯婴儿语言理论设计并建立了包含五种情感的婴儿哭声数据库,为后续的模型训练以及本领域其他研究人员提供了可靠的数据集。(2)针对婴儿哭声数据的预处理问题,本文对婴儿哭声发声特点进行研究,总结了婴儿啼哭与成人语音的差异及特点,并根据婴儿哭声数据的特征提出采用预加重、分帧、加窗、端点检测的方法进行哭声数据预处理,为后续生成语谱图提供了优质的音频数据。(3)针对现有婴儿哭声情感分类模型的情感识别率和模型训练时间效率有待提高的问题,对卷积神经网络和Transformer模型等基于深度学习的语音情感分析技术的优势及长短期记忆神经网络的不足进行了深入研究。随后本文提出采用基于CNN-Transformer模型对婴儿哭声情感进行分类,该模型利用CNN提取语谱图的特征图,并将提取后的特征图压缩成为向量,然后将向量输入到Transformer模型的Encoder部分对婴儿连续哭声进行时序建模。最后通过采用修改位置编码、多头感知、残差链接与归一化、全连接前馈网络等技术对CNN-Transformer模型进行了改进。(4)为了对提出的模型进行准确地评估,本文在自建立的数据库上对提出的CNN-Transformer婴儿哭声情感分类模型进行训练,为了证明实验的公平性,采用公开的ESC-50数据集和Freesound数据集作为测试集进行验证。实验结果表明提出的模型在分类正确率、单分类正确率、训练耗时几个主要性能指标上有明显的提升。综上所述,本文对婴儿哭声的特点进行了充分的分析与研究,设计了包含五种情感的婴儿哭声数据库,提出了一种基于CNN-Transformer的婴儿哭声情感分析模型,并对该模型进行了实验验证及分析。本文所做的工作为其他领域的语音情感分析提供了一种新的研究思路和方法。
其他文献
目的:探讨外耳道成形术在中耳手术中的应用及效果。方法:以2012-2016年因中耳病变行外耳道成形加完壁式中耳手术的72例(74耳)患者为研究对象。回顾性分析患者的一般情况、疾病类型、手术方式、术后干耳时间、并发症及术后听力恢复情况。结果:慢性化脓性中耳炎48耳,中耳胆脂瘤12耳,鼓室硬化症7耳,中耳胆固醇肉芽肿5耳,粘连性中耳炎2耳。术中探查锤骨前韧带存在病变者16耳(21.6%),术后69耳(
随着泛在电力物联网概念的提出,传统的配网形态正发生显著变化,传统的交流配网设备众多、线损大、可靠性低,柔性直流配网(后简称“直流配电”)因其线损小、供电效率高、不存在三相不平衡等问题受到众多研究人员的青睐。文章主要论述了直流配网常见的故障形式和保护配置、故障电气量特征与保护原理、继电保护技术发展趋势。同时对直流配网继电保护技术的发展进行总结并指出下一步可能的发展方向。
目的:分析在治疗胆脂瘤型中耳炎患者中应用开放式鼓室成形术中自体骨粉行外耳道后壁重建的价值以及临床疗效。方法:随机挑选胆脂瘤型中耳炎患者100例并分成试验组与参照组。在开放式鼓室成形术的基础上,参照组采用耳甲腔成形术的治疗方法,试验组给予自体骨粉行外耳道后壁重建术进行治疗。结果:统计两个治疗小组的治疗总有效率,试验组要显著高于参照组(74.00%)。术后统计两个治疗小组外耳道结构正常率,试验组(94
甲状腺疾病是一种临床上常见的内分泌疾病,其病因机制复杂多样。目前关于甲状腺疾病的研究主要局限于临床上的药效评价,对其发病机制研究较少,因此甲状腺疾病动物模型的建立对分析该类疾病的病理机制以及提高临床疗效有着较为重要的意义,成功的实验动物模型不仅能降低实验成本,还具有可行性、重复性高等特点。本文就近年来关于甲状腺功能减退症、甲状腺功能亢进症、桥本甲状腺炎、甲状腺癌等甲状腺疾病动物模型的建立方法做一总
随着经济的快速发展,全国的车辆总数日益增长,车牌识别已经成为交通运输管理的关键性技术。基于传统的车牌识别算法已经可以应用于小区、停车场等这种简单场景;但是,在全天候复杂的工作环境下,车牌图像会存在模糊、受损、倾斜等情况,传统算法抗干扰能力差、模型不具有通用性,设计出来的算法定位和识别效果不理想。基于传统方法的局限性,本文提出基于深度学习的车牌识别算法。首先,本文提出基于改进U-Net的语义分割模型
脑机接口(Brain-Computer Interface,BCI)提供了一种不依赖周围神经和肌肉而直接与环境交互和控制外部设备的方法。它可以直接读取并将人脑中的生理电信号转换成控制信号从而控制外部设备。BCI在疾病识别、神经修复、神经反馈训练、利用脑波生成视觉图像、情感分类、军事、娱乐等领域得到了广泛的研究和应用。对运动想象脑电信号分类是脑机接口研究中的关键技术之一。本文以提高运动想象脑电信号的
寻求高效的节能方法是应对日益严重的能源问题的有效途径。而脉动热管作为一种结构简单、体积小、效率高、适应性强的新型传热元件,在强化传热、节能减排等各个领域应用日益广泛。目前对脉动热管的研究主要集中在实验以及数值模拟两方面,对管内工作流体的对流换热、导热以及相变等多种物理过程与脉动热管运行机理间的联系研究的不够透彻。为更加深入的研究脉动热管的工作机理,本文从管内工质的流动与传热以及流体动力学角度,建立
设计模式是经验化的文档,用于解决特定背景下反复出现的软件设计问题。由于设计模式封装的经验知识较专业且组织形式各不相同,随着设计模式不断地被提出,其表达的意图、应用的范围也越来越复杂。对于特定的软件设计问题,在没有工具的支持下,选择正确的设计模式去解决这些问题对于软件开发人员来说是十分具有挑战性的。已有的软件设计模式选择方法主要有以下几个问题:在设计模式数量较多时缺乏灵活性、对设计模式的搜索场景利用
高能物理中喷注识别任务是从背景中识别出特定的信号,这些信号对于在大型粒子对撞机上发现新的粒子或者新的过程都有重大意义,同时区别不同喷注结构的技术也推动了量子色动力学的发展,进一步提高了人们对高能粒子领域的理解。近年来随着神经网络和深度学习技术的日趋成熟,本文针对现有喷注分类模型存在的缺乏有效的特征提取手段、训练过程繁杂等问题,结合喷注数据的空间特性,将喷注视为三维空间中的点云数据,在此基础上提出了
板式换热器板片是板式换热器的核心部件,在冲压生产的过程中可能会产生微裂纹缺陷。板式换热器如果使用了存在微裂纹的板片,将具有泄漏的隐患。在工业生产中一旦原料出现泄漏,可能引发经济,环保等方面的问题。因此,板片生产后要进行严格的检测,保证存在缺陷的板片不会被投入使用。人工目测法和渗透探伤法是常用的微裂纹检测方法。人工目测法难以保证微裂纹检测的准确性;传统的渗透探伤法工艺繁杂,微裂纹检测的实时性较差。设