基于主观听觉反馈的机器学习语音增强模型优化研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xiaoPhaiM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音信号是人类相互沟通的重要方式之一,但是其易受到传输过程中各种噪声的侵扰,特别是在当今电子通讯技术发达的社会,无线传输时各类噪声对语音信号可懂度的影响非常大,因此在现代语音信号处理领域中,语音增强技术成为不可或缺的环节。现如今结合机器学习的语音增强技术效果得到了大幅提升,尤其是使用深度神经网络的语音增强技术,但是网络模型存储需求和计算量大,计算复杂度和计算功耗高,难以部署到常用的可移动设备和嵌入式设备中。因此本研究旨在对神经网络语音增强模型压缩优化,减少模型参数以降低模型的冗余度。本研究使用深度降噪自编码器构建语音增强模型,在两种非平稳噪声条件下分别训练出对应的神经网络语音增强模型。基于幅值剪枝的模型压缩方法,提出了迭代修剪+重新训练的压缩方法,与迭代修剪无重训练和直接修剪+重新训练这两种对照方法进行了对比,显示了重新训练和迭代渐近式修剪的重要性。此外,本研究对迭代修剪方法进行优化,多次重复迭代修剪+重新训练方法,多次重复迭代使得稀疏网络模型重新收敛。模型压缩过程中使用字正确率作为主观听觉反馈,对每个压缩模型的语音增强性能进行评估,最终拟合模型参数修剪比例与字正确率的平衡曲线,以此寻找每种模型压缩方法的最大临界修剪比例。本文首先对单通道的语音增强方法进行介绍,尤其是其中的神经网络语音增强方法,接着对神经网络模型压缩的方法进行介绍,最后搭建神经网络语音增强模型,通过主观测听实验对比测试提出的网络模型压缩方法。其中使用迭代修剪+重新训练的模型压缩方法可以在不影响模型语音增强性能的情况下,将模型参数减少50%,优化后的多次重复迭代修剪方法最大临界修剪比例可达80%,实现对模型参数量压缩5倍而不影响其语音增强性能。
其他文献
著作权是法律赋予作者的一项排他性的权利,权利人可以排除他人未经许可使用其作品。但为了促进科技进步和繁荣文化事业,法律为著作权设立了权利限制制度,合理使用制度便是其
高密市东北乡文化发展区作为莫言旧居所在地以及莫言大部分文学作品的创作背景地,拥有浓郁独特的乡村风情和良好的旅游发展条件。自莫言2012年获得诺贝尔文学奖以来,该地借“莫言效应”及电视剧《红高粱》的热播,重点打造了莫言旧居、红高粱影视城等旅游项目,吸引了大量的游客前来参观旅游。该地目前已成为高密市最重要的旅游目的地。然而,目前学者们对该地旅游发展的关注度还不够高,针对该地旅游方面的研究很少,导致该地
卫星-地面中继通信系统(Hybrid Satellite Terrestrial Relay System,HSTRS)凭借其覆盖面积广、通信质量好以及信道容量大等独特优势已经被广泛应用于导航、广播等各个领域。然而,无线通信的实际环境一般都是十分复杂的,如物理层的噪声、I/Q支路的不平衡以及高功率下的非线性问题等原因会使得系统的硬件产生损伤,这会在一定程度上制约了通信系统的性能。在此背景下,硬件损
面临国家发展战略的调整与市场化改革的深入,目前国内乡村的发展遇到了前所未有的瓶颈和阻碍。返乡精英开始成立农民专业合作社,并以此为主要途径促生村庄的经济再生产,从而开辟一条农业产业道路。H村的返乡精英因为受到大城市或国外的发展战略引导,返乡后便希望利用本地资源优势来扩展并发展壮大茉莉种植基地,力图实现产业链式的实力乡村企业,以此打破目前村庄的衰败格局,并试图利用这一农业产业带动乡村的再兴起和有效发展
阿拉斯戴尔·麦金太尔作为当今最具声望的伦理学家之一,一方面坚持使用历史主义的研究方法,追溯西方道德思想的发展历程,对现代西方道德观念与整个现代性精神提出批判性思考。另一方面,其德性论建构于亚里士多德的美德伦理之上,主张道德以实践、目的和个人的社会生活为基础。显然,麦金太尔的历史主义方法论和基于亚里士多德主义之上的德性论辐凑于一点,即对传统的高扬。就此而言,关于传统与德性的思考是他整个伦理思想体系中
5G(Fifth Generation,5G)的一个关键指标是传输速率,按照通信行业的预期,5G的峰值速率不小于10 Gbps,而4G(Forth Generation,4G)的传输速率不到5G的十分之一。根据香农公式,
磷脂酶D(phospholipase D,PLD)属于磷脂酶超家族,是作用于磷酰氧键的水解酶,它可以催化磷脂水解反应生成胆碱和磷脂酸。在一定的条件下,还能催化其他含有羟基的物质与磷脂的碱基发生反应,生成新的磷脂。利用磷脂酶D对常见磷脂进行改性,可以生产稀有磷脂,提高生物价值。磷脂酶D广泛存在于自然界的各个群体中,但是由于动物源和植物源的磷脂酶D的提取工艺复杂且杂质多,野生型微生物来源的磷脂酶D产量
捷联罗经初始对准是基于罗经效应通过控制算法完成闭环调节的过程,对准算法的精确性和快速性是相互制约的。随着惯性器件的快速发展和更新换代,精确性问题逐步得到解决,快速性问题是当前捷联罗经对准亟待解决的问题之一。论文深入分析了平台罗经初始对准原理、捷联罗经初始对准原理和罗经参数配置问题,推导了捷联罗经粗、精对准算法,提出了改进罗经对准算法,该算法将常规捷联罗经对准四步法改进为三步法。分析了逆向导航原理,
基于位置的服务(Localization Based Service,简称LBS)在人们的生活中扮演着重要的角色。智能手机用户可以通过全球卫星定位导航系统轻松获取位置信息,但是这种定位系统依赖于卫星的辅助。在室内环境中,卫星定位系统会因为受到信号阻塞的影响而定位失败。自主式行人定位技术能够不依赖于外部辅助设备而实现定位功能,具有巨大的研究价值。本文研究了基于智能手机的自主式行人定位算法,在行人航迹
随着新课改的不断推进,初中英语老师责任不仅是简单得传授同学们一些基础的英语知识点,而且还要培养学生的运用知识的能力和综合素质,作为英语教学的重要组成部分,英语语法教学还应注重培养学生运用语法知识的能力。翻转课堂模式是近年来最流行的一种新型教学模式之一。它不同于传统教学模式之处在于将讲解知识放在课前而在课上主要讨论学生在课前遇到的一些问题,从而使学生有更多的机会在课堂上运用知识。因此翻转课堂模式能够