基于非重构压缩采样的抗噪说话人识别技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:w7kny6194i
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的产生和互联网技术的发展,说话人识别作为生物认证的一种,凭借其独一无二的优势在人机交互领域一直备受关注。说话人识别技术已经从实验室转向了实际应用中,同时用户对其准确性、友好性和鲁棒性的要求越来越高。在实际应用环境中,说话人识别性能受到诸多因素影响,其中最主要的因素是环境噪声的存在。环境噪声污染了采集的语音信号,导致训练数据集和测试数据集之间的匹配度降低,引起识别性能下降。另一方面,随着云计算、大数据产业的发展,人们获得的信息量不断增加,为了减轻传输和处理数据的负担,信号的压缩感知技术应运而生。奈奎斯特采样下的说话人识别,当为了确保高的识别率而采集较长时间说话人语音时,采样数据量特别大,其中有许多冗余造成了采样资源的浪费,压缩感知理论可以很好地解决此问题。本文将压缩感知理论应用到噪声环境下的说话人识别系统中,直接对观测矩阵压缩后的观测序列进行特征提取,针对基于压缩感知的鲁棒性说话人识别进行研究,论文工作是导师国家自然科学基金工作的一部分,本文主要工作和创新如下:(1)研究压缩感知压缩比和语音分帧长度对识别系统性能影响。对行阶梯矩阵投影下的观测序列展开研究,研究压缩比和帧长对识别率的影响。发现在压缩比为1:2时,识别性能与传统方法相当;帧长过短或过长时,说话人识别率有明显的下降趋势,一般所取的帧长在20ms-30ms左右。(2)研究在有噪环境下语音压缩感知识别系统的特征参数和消噪技术。首先提出了基于谱减法的特征参数CS-SSMFCC,提高了系统的鲁棒性。将时频分析特性较好的小波阈值去噪应用到系统前端,发现小波软阈值去噪效果比谱减法更好,在15dB信噪比下,识别率可以达到90%以上。(3)语音信号是由激励源和声道函数共同作用的结果,基于行阶梯矩阵提取另一种关键特征参数—基音频率。为了提高识别率,提出一种将基音信息和Mel倒谱特征分数层线性加权融合方法,根据加权系数是否与每条测试语音有关,采用固定加权和动态加权两种融合方法,实验结果表明动态加权融合识别效果更好。在此基础上,将小波软阈值去噪增加到系统前端,设计一种新的抗噪融合识别系统,增强了系统的鲁棒性。
其他文献
身份认证与识别是人类社会日常生活中的基本活动之一。随着社会的发展和要求,国家公共安全、信息安全等领域更需要高可靠性身份认证技术。而基于人脸特征的认证技术是满足这
随着无线局域网和智能移动终端的快速普及,基于位置感知服务正逐步改变移动设备的使用模式,在人们的社会生活中发挥着越来越重要的作用。基于位置指纹的Wi-Fi室内定位技术相
运动目标检测是视频监控、计算机视觉以及模式识别等领域的一个重要研究内容,在安全监控、智能交通、军事导航等方面有着广泛的应用前景,其检测结果直接影响着后续的目标定位、
欧洲标准对同频干扰作了限制,在3GPP 0505中规定:同频干扰的载波干扰比应该满足C/I≥9dB。中国GSM-R网络对于同频干扰的指标要求,借鉴了欧洲标准对GSM的指标要求。这种借鉴具
在突发灾难时,现有的地面通信网络设备,如移动基站、光纤往往很容易遭到破坏,救灾人员无法了解灾区内部受灾情况,从而延误抢险救灾进度。从5.12汶川地震的历史经验可知,事先建立完
电子采购是通过网络进行采购商品的活动。电子采购是传统采购的变革,其包括的主要流程为制定采购策略,搜索供应商,与供应商进行协商,选择供应商,并签订电子合同。通过电子采
无线传感器网络(WSN)中节点的能量有限性、如何降低网络能量消耗和延长网络的生命周期是自WSN出现以来的重点研究问题。WSN的路由协议常常会因为节点能量耗尽失效导致整个网
当前,随着高速无线通信网络的快速发展以及新型网络结构的出现,无线网络中能量受限的移动终端等设备对能量的需求越来越成为制约网络服务质量的瓶颈。基于无线信息和能量协同
粒子群优化算法(Particle Swarm Optimization, PSO)源于对鸟类觅食行为的研究,由美国心理学家Kennedy博士和电气工程师Eberhart博士于1995年共同提出,是一种基于群智能理论
本文通过问卷调查,对东莞市村(社区)图书馆发展状况、社区综合服务中心整合村(社区)图书室的效果进行调查的基础上,提出了完善东莞地区村(社区)图书室服务的主要对策建议,认