基于深度学习的单通道语音增强研究

来源 :内蒙古大学 | 被引量 : 5次 | 上传用户:mikezhai128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强技术的目的是对带噪语音中的噪声部分进行抑制,同时尽量保留纯净语音部分。近几年,语音增强开始作为监督性学习问题来解决,模型直接从训练数据中学习到语音和噪声的区别。特别是最近基于深度学习的语音增强算法,表现出了可观的性能。本文在监督性语音增强的框架下,从两个方面展开了研究:(1)基于胶囊网络的语音增强:深度神经网络(DNN)在语音增强任务上取得了很好的性能,但是对噪声的泛化性依然存在问题。为了提高模型的泛化性能,我们提出使用胶囊网络进行语音增强。胶囊网络最开始在图像处理领域提出,表现出了对输入的仿射变换具有鲁棒性,并且胶囊网络擅长识别重叠物体。我们认为带噪语音就是语音和噪声的重叠,因此胶囊网络也适合处理语音增强问题。实验表明,基于胶囊网络的方法表现出比DNN更好的对噪声的泛化性能。(2)基于时序卷积循环神经网络的语音增强:大多数基于深度学习的语音增强方法,都是在时频域上进行。由于目标的相位很难使用模型进行直接估计,因此一般只估计频谱的幅值,而保留混合语音的相位,这会降低语音增强系统的性能。在本文的工作中,我们提出使用时序卷积循环神经网络(TCRN)进行语音增强,直接将带噪语音波形映射到纯净语音波形,从而避免显式的相位预测。TCRN是一个端到端的语音增强模型,通过时序卷积和循环神经网络的结合,分别对语音中的短时信息和长时信息进行了有效的建模。实验结果表明,我们的模型在语音可懂度和语音质量方面都优于之前的基于LSTM和CRN的方法。
其他文献
【正】 10月的影像市场,索尼可是气势非凡,先是T200狂卷了黄金周市场,紧接着 A700又在数码单反市场杀出一条血路。不过这还没完,索尼新一代的卡片机又在11月投放市场。T2是一
常州市房产产权监理处经过一年多的时间,研究、设计、开发了《常州市房产地理信息系统》,实现了数字化管理房产产权产籍管理。该系统由传统的纯业务数据管理上升为图文一体化管
由于湿式制动具有制动平顺、磨损轻、散热快、使用寿命长、节能环保的特点,故近年来在国外大型工程机械上得到广泛应用,并成为轮式工程机械制动系统的发展方向。介绍了一种满
患者女,76岁,左下肢间歇性跛行2个月,静息痛4天,既往冠心病史20年,高血压病史5年。查体:左侧腘动脉、足背动脉搏动未触及,胫后动脉搏动减弱,左足趾发紫,触痛,左足皮温减低。超
目的:研究对腰椎间盘突出症患者进行经后侧椎板入路内镜手术治疗的效果。方法 :对2013年1月至2014年10月我院收治的79例腰椎间盘突出症患者的临床资料进行回顾性分析,为其进
记者2011年6月15日从甘肃省交通部门获悉,《京新高速白疙瘩(蒙甘界)至明水(甘新界)段工程可行性研究报告》已于近期在京通过交通运输部组织的专家评审。白明高速公路是G7京新高速
本文在叙事医学理论的指导下,医务社会工作者运用访谈法、案例分析法对Y社区三位老年慢性病患者进行调查研究,解决通过医务社会工作者与三位患者之间关注、再现、归属的叙事以及社会工作技巧的运用,体会老年慢性病患者的的患病过程,让患者在叙事性的对话中正视疾病、发现疾病的积极意义,以更有力量的姿态面对慢性疾病的困扰,提高生命质量,最终帮助患者分别解决慢病自我管理能力差、夫妻之间的关系僵硬以及自我认同感低的问题
本文介绍了理解性输入的内涵及其与语言习得的关系,指出读听是理解性输入的有效途径,并对有效读听给出具体建议。
当今社会提倡节能减排,以期缓和全球性的资源短缺,于是可持续发展、环境保护、节约型社会的战略观点得到全社会的重视。公路与水路交通是国民经济和社会发展的基础性产业,进