基于深度神经网络的单通道语音增强方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:liongliong497
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强是语音信号处理领域目前最具挑战性的任务之一。随着智能终端设备涌入人们的生活,传统语音增强方法的性能已经无法满足人们的需求。传统方法大多基于无监督学习,利用非语音段估计噪声,并将估计出的噪声从语音段中减去。现实生活中的噪声充满了随机性,传统方法作出的一些假设往往不符合实际噪声场景。传统的增强方法存在残留音乐噪声、破坏语音信号、抑制非平稳噪声能力差等问题,这些问题使其难以广泛应用于实际噪声场景中。近些年,深度神经网络因为计算能力的提升以及数据量的积累,在图像和语音领域取得了较好的效果,为其在语音增强任务上的发展奠定了基础。DNN增强方法基于大量的成对训练语料进行训练,它对时间依赖性问题不敏感,而CNN方法通过卷积的方式保证了时间和频率维度的依赖关系。本文基于CNN网络展开对语音增强性能提升的一系列研究。首先,介绍最广泛的加性噪声模型,并针对此类噪声提出基于对数幅度谱掩蔽的编解码CNN语音增强方法,以带噪语音和干净语音的对数幅度谱作为网络的输入和标注数据。网络通过预测对数掩蔽的方式估计干净语音信号对数幅度谱,这种方式既能够利用时间依赖信息,又能学习到输入输出之间复杂的非线性关系。其次,基于对数幅度谱的方法忽略了相位因素对恢复时域信号的影响,通过实部谱和虚部谱的处理方式,间接的恢复出相位信息。由于实部谱和虚部谱难以直接进行训练,提出压缩的实部和虚部掩蔽特征和对数幅度谱作为多输入特征,以单任务和多任务方式对网络进行训练。此外,直接利用网络进行语音增强,虽然能够明显的消除背景噪声,但是会对语音段造成损伤,使其在听感上不舒服。因此,提出共享增强网络的训练方式,在保证降噪能力的同时,解决增强网络对语音信号的损伤问题。最后,针对上文所提到的语音增强方法,搭建了一套训练和推理的软件框架,并将训练过程运行于带有显卡的服务器端,将推理过程移植到树莓派嵌入式平台上。
其他文献
本文在简述水电站发电运行值班工作重要性的基础上,对日常工作中容易出现的细节问题及解决策略进行了分析和讨论。
凭借其输出功率高、贮存时间长、可靠性高等优良特性,热电池被广泛用作导弹、鱼雷等先进武器装备的工作电源。由于放电电压低于2V,FeS2、CoS2等传统过渡金属硫化物阴极材料已
目的:研究桑寄生对培养人HepG2细胞的葡萄糖消耗作用,初步探讨桑寄生的降糖作用机理。方法:采用人的培养的HepG2细胞,检测24h后培养液中葡萄糖的消耗量,用MTT法监测细胞增殖
近年来,环境保护越来越被人们所重视。与此同时随着水污染的日益加剧,排放污水的标准越来越严苛,人们对污水处理的需求也日益迫切。随着城市的快速发展,政府的财政压力也不断
血糖仪是监测血糖的仪器,能够迅速、便利、准确地监测自身血糖水平,对机体血糖平衡起着重要的监控作用。随着近年来糖尿病发病率的不断升高,血糖仪相关技术得到极大的重视和
细胞膜活性肽是生物活性肽中的一大类,是指源自生物体内基因组编码或者体外化学合成的一类具有抵御外源因子侵害、对体内病变细胞能特异性识别并去除的多肽分子。细胞膜活性
随着新课程教育教学标准的改革与发展,对我中职教育的发展产生极大的影响,急需加强并改进中职院校课程的教学模式及方法,有效提升中职教育的教学质量。电子电工课程是一门具
随着我国社会经济的发展,土壤污染问题逐渐显露。而且我国土壤环境问题及污染防治工作在相当长时间内没有得到应有的重视,土壤污染问题逐渐暴露。加强土壤环境管理是我国土壤
爱的奉献偶然的机会,徐英俊老师送给我三本摄影画册:《美由心生》、《影自心成》、《情系黑土地》。用心欣赏,享受了一场饕餮的珍馐美馔的视觉盛宴。慢慢品读,读懂了作者内心
课堂考勤是每个院校必要的教学常规工作。但常规的点到方式不仅会消耗有限的教学时间,还会无形中增加教师的工作负担。现有信息化手段的"点到"技术,对于学生手机严格管理的中