基于Jetson Nano的语音情感识别研究

来源 :成都理工大学 | 被引量 : 0次 | 上传用户:Viola2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音情感识别技术的发展使得人机交互更为真实与智能,逐渐发展成为人工智能领域重要的任务之一。近年来,深度学习技术也开始应用于语音情感识别领域。本文通过提取语音信号的时频域特征进行特征融合,采用深度学习方法识别出语音信号中蕴含的情感信息。最后将在电脑端训练的开发环境与模型通过Docker容器技术迁移到Jetson Nano上进行语音情感识别。主要研究内容以及创新点如下:(1)语音数据增强与特征融合。为了避免语音情感识别数据集中数据稀疏问题,使用时间伸展与音高变化方法进行语音数据增强,扩充CASIA语音情感数据集。将预处理后的语音信号提取频域特征梅尔倒谱系数(Mel-frequency Cepstral Coefficients,MFCC)与时域特征短时能量,使用相同的分帧机制进行拼接融合,获得新的语音情感特征。(2)综合1D-CNN的时序建模能力与Bi-GRU的历史信息捕捉能力提出了CGRU混合神经网络,在CASIA数据集上的平均识别效果为87.89%,相比1DCNN与Bi-GRU模型的平均识别准确率分别提升了1.44%、5.08%。同时,针对语音有情感帧与非情感帧的情况,在CGRU模型基础上引入注意力机制与联结主义时间分类,分别构建了CGRU-Att GRU与CGRU-CTC网络,前者实现对不同重要程度的语音帧,分配权重实现重点学习;后者实现情感标签与情感帧强制对齐操作。CGRU-AttGRU、CGRU-CTC模型分别取得了92.11%与90.87%的平均识别效果,两种模型相比于CGRU模型的效果分别提升了4.22%、2.98%。将两种优化方法联合训练后得到的CGRU-Att GRU-CTC模型取得最优效果93.81%。(3)设计将电脑端的开发环境与模型,通过Docker容器技术进行打包迁移至Jetson Nano硬件平台,实现嵌入式端语音情感识别。为验证模型在其他语音情感数据集的泛化能力,本文对从影视作品中采集的情感音频进行模型鲁棒性测试。在跨数据集识别实验中,使用最优模型CGRU-Att GRU-CTC取得了48.46%的平均识别精确率,证明了模型具有一定的鲁棒性。CGRU-Att GRU-CTC模型在Jetson Nano平台上识别速度为0.052s/句,优于Bi-GRU模型的识别速度,验证了提出的模型适用于嵌入式端移植。
其他文献
随着电子控制技术在现代汽车工业的广泛应用,人们对汽车的舒适性、安全性等要求越来越高。汽车仪表作为驾驶员和汽车信息交流的窗口,能够给驾驶员提供更舒适的驾驶体验。全液晶仪表作为未来汽车仪表的发展方向和趋势,不仅能够显示车速、燃油量、温度等基本车辆信息,还能够显示导航地图、多媒体画面等娱乐信息,但显示内容的多样化势必会增加汽车仪表视频传输系统的负荷。因此,汽车仪表不仅要求具备高性能的图像处理技术,还需要
学位
随着半导体和集成电路产业的发展与进步,市场需求得到了持续化地提高,集成电路体系和种类变得更为繁多,相应的测试费用成本和难度也不断增加。在增加集成电路成本费用的因素中,测试成本占了相当大的比重。所以,就减少集成电路的测试支出,对于集成电路批量化地生产和发展极其重要。在此背景下,运用高效能的测试方式和有着优质特性的自动测试设备(ATE,Automatic Test Equipment)是实现以上目标的
学位
随着科学技术领域的不断拓展,多足机器人的应用范围也得到了广阔的延伸,例如灾害救援、军事任务、核电厂检测任务和深海空间探测等,可以很好地代替人类完成危险的工作。六足机器人作为国内外机器人研究的重点,具有机动性能好、适应复杂环境能力强等优势。随着六足机器人应用技术的快速发展,六足机器人的技术导向更加倾向于机器人的自主控制,即六足机器人不再依靠人为远程控制,而是通过机器人自身搭载的主控模组,控制六足机器
学位
伴随智慧城市和视频监控系统的发展,人工从多摄像头中快速准确找到目标人物过于耗时费力,得益于深度学习强大的特征提取能力,基于深度学习的行人重识别任务成为了填补这一空白的技术之一。有监督学习的行人重识别任务中,数据样本通常拍摄于于少量的固定监控摄像头,行人区域和非行人区域分别为目标前景和背景噪声,每一个固定摄像头仅能够获取一种类型的背景噪声,背景噪声种类数量过少加大了对模型学习的干扰,使得模型的泛化能
学位
传统聚落景观是展现地域文化特征的载体,能够最真实的反映传统聚落的景观风貌特征。白玉县传统聚落景观是白玉县具有典型代表的乡村聚落景观。近年来,在国家政策指引下,传统聚落的保护与更新工作逐渐增多,但在保护与更新工作进行的过程中依旧存在较多问题,其根本的原因是对于传统聚落景观认识不够充分而导致。结合读研期间对于白玉县藏族传统聚落已做实地考察探访等相关研究工作中充分了解到白玉县传统聚落其在保护与更新过程中
学位
据世界卫生组织报告,在每年因交通事故死亡的约有120万人,交通安全问题已愈发严重。在许多的交通事故中,都是因为驾驶员没有良好的驾驶习惯,注意力不集中导致。这其中,又有60%以上是追尾事故。如果在事故发生前可以对驾驶员发出警告信息,那么就可以大大减少交通事故发生的概率。近年来,各大车企在汽车高级辅助驾驶系统(ADAS)上的研发投入越来越多,其中,汽车前方碰撞预警系统(FCWS)是汽车高级辅助驾驶系统
学位
随着信息技术不断发展,无线通信的相关研究主要围绕如何提升频谱利用率、数据传输速率和传输可靠性而展开。具有高传输速率和高效频谱利用率的正交频分复用OFDM(Orthogonal Frequency Division Multiplexing)技术也就逐渐成为无线通信领域的研究重点。OFDM技术主要依靠子载波的正交性来实现稳定高效的数据传输,这就导致OFDM系统对频率偏差十分敏感,子载波的正交性一旦受
学位
温室在农业现代化进程中发挥着重要的作用,温室环境参数智能调控作为温室控制的关键技术,直接影响着温室种植作物的产出和收益。近年来随着传感器技术和网络通信技术的飞速发展,以云计算为中心的温室控制系统得以快速应用部署,但是随着不同需求、环境的应用案例的增多,缺点也逐渐暴露:现场系统自主性弱;终端设备公共接口复用性差,远程维护困难;控制算法智能化程度低,控制参数单一等。针对上诉问题,本文研究并设计了一套基
学位
火灾具有突发性强,破坏力大的特点,严重威胁人民群众的生命财产安全。随着人们消防意识的提高,以及科学技术的进步,当前在很多现代化建筑场所都配备了较为完善的消防设施,在火灾防护工作上发挥出了较好的作用。然而在很多类似于小商铺、小作坊、老小区等分散的老旧边远场所,依然存在消防空白。依赖传感器探测的火灾预警方案由于易受空间、环境等因素影响,已经不能很好满足应用需求。进入信息化时代以来,数字图像处理技术和计
学位
阐述王成荣研究员妇科疾病"冲任虚瘀"理论及理法方药,并举验案1则。
期刊