说话人辨认中的特征参数提取和鲁棒性技术研究

被引量 : 0次 | 上传用户:hanson1023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人类获取信息的主要来源之一,也是最方便、最有效、最自然的交流工具。语音识别是研究使机器能准确地听出人的语音内容的问题,其目的是方便人与机器的交流。说话人识别技术是语音识别的一种特殊形式,其目的不是识别说话人讲的内容,而是识别说话人是谁。说话人识别技术在近三十多年的时间里取得了很大的进步,这种技术的应用为人类的日常生活带来很大的便利。但是,随着说话人识别技术实用化的不断深入,不同应用领域对该技术的要求越来越高。一方面,说话人发音的多变性,要求提取适合说话人识别的特征以保证系统的性能;另一方面,噪声环境、训练与测试数据的时长以及通信信道的失真等问题都严重影响到说话人识别系统在实际应用中的性能。本论文针对文本无关的说话人辨认任务,在说话人个性特征提取和噪声鲁棒性技术两个方面进行了研究,主要内容包括:1.提出基于特征变换和模糊最小二乘支持向量机的辨认算法。针对最小二乘支持向量机模型在语音数据大样本输入下的局限性,一方面对传统的梅尔倒谱特征MFCC进行基于高斯混合模型的特征变换,解决训练最小二乘支持向量机的过程中需要求解的线性方程组的变量数目与特征数量紧密相关的问题;另一方面,通过引入模糊隶属度函数,处理了最小二乘支持向量机从二分类扩展到说话人辨认的多分类时存在的不可分数据问题。高斯混合模型作为一种经典的生成式模型,不但能有效减少数据量,起到压缩数据的作用,而且由于聚类变换后的结果是高斯混合模型的均值矢量集,能够很好地代表说话人的特征,起到突出说话人信息的作用。基于特征变换和模糊最小二乘支持向量机的辨认算法结合了高斯混合模型在拟合数据方面的优势和最小二乘支持向量机在分类辨别方面的优势,从而改善系统系统的性能。2.提出基于高斯混合模型的感知特征补偿变换的抗噪声算法。从人类听觉感知特性出发,基于感知线性预测模型从不同层次模拟了人耳的听觉特性,从语音的频谱细节考虑,去除了会引起说话人信息平滑的临界带频谱分析,提取改进的感知对数面积比系数MPLAR作为说话人特征,具有良好的可分性;并在此基础上,根据说话人识别的声学特性,从匹配得分的整体考虑,对模型输出的似然得分引入非线性变换,拉大目标模型与非目标模型的得分比,拉近同一模型各帧得分值,使得各模型的得分值不仅与当前时刻的似然概率有关,还与之前的K个时刻的似然概率有关,解决了MPLAR在不同类型噪声条件下的抗噪性能问题。基于感知特征和模型补偿的说话人辨认算法不仅提供了可分性更好的特征,并且在模型匹配阶段从整体得分的统计特性出发,得到稳定的模型得分,增强了系统在噪声环境下的识别能力。3.提出基于自适应频率规整的鲁棒性辨认算法。经典的梅尔倒谱特征和感知线性预测特征从人类的听觉感知机理出发,模拟了人类听觉系统对声音频率的感知特性,改进了说话人的识别性能,但是这种处理方式并没有对语义特征和说话人个性特征区别对待,而是在特征提取阶段笼统地降低了高频信息的比重。自适应频率规整算法是基于说话人信息在不同频带呈不均匀分布的原理,从语音生成的生理学角度分析人类在发音过程中的结构变化,从中获取携带说话人信息的生理特征,进而从频谱分析的层次对不同频带对说话人信息的贡献进行量化,指导设计了与Mel频率尺度不同的自适应频率尺度变换,在说话人信息贡献大的区域分配的滤波器个数增多,带宽变小,频率分辨率提高,而贡献小的区域分配的滤波器个数减少,带宽变大,频率分辨率降低,从而进行自适应的频谱滤波,提取区分性特征DFCC。并且针对应用到实际使用环境时存在的训练语音与测试语音失配的问题,对语音频谱进行逐帧逐频率点的预增强处理,去除噪声的干扰,进一步提高系统的鲁棒性。4.提出基于汉语元音映射的说话人辨认方法。该方法从汉语语音的特点出发,对基于汉语的说话人识别进行研究。由于汉语具有相对稳定的音节结构,并且其中的元音部分占据了主要的能量和时长,基于此,从汉语语音的特点出发,对汉语拼音的结构、发音特点进行分析,并且通过元音频谱对比、音素滑动分析、韵母分解实验和共振峰分析等,从短时帧角度将韵母中的元音部分分解为单元音音素的组合,结合大量语音学知识构建了汉语元音映射表,通过汉语元音映射,能够有效地分离语音信号中的语义信息和话者身份信息,将文本无关的说话人识别问题转化为与有限个单元音音素有关的识别问题,并由此衍生出新的说话人建模方法以及新的识别框架,在提高识别率的同时降低对训练和测试数据时长的依赖。在新的识别框架下,提出了一种基于仿生模式识别的说话人辨认算法,在训练阶段利用改进的最近邻覆盖算法为每个单元音音素建立有效的覆盖;在识别阶段根据待测元音帧是否落入对应覆盖区域进行判别,该算法在开集测试条件下对冒名者具有较好的分辨能力。
其他文献
权力和责任是相统一的。地方政府党政领导干部问责制建立的目的在于规范地方政府权力,确保地方政府责任正确履行。2003年“非典”事件,被看做是“开中国官员问责的先河”,随
本文根据粗糙集理论讨论了属性值约简问题,基于属性值的重要度提出了一种改进的启发式值约简方法。首先,通过约简广义特征表和决策表获得决策表的属性值核。其次,用条件属性
本文认为 ,沉默权首先应是一项宪法权利 ,诉讼法有关沉默权的规定 ,无非是宪法规定的具体化而已。确认沉默权制度体现了宪法保障人权的终极价值目标 ,是民主宪政制度发展的必
<正>金秋十月,我们慕名前往桂林市灵川县是为了一睹"遍地黄金"的银杏秋景,更是为了略领悠久的古建筑群落,感受别样的桂北民居文化。国宝级灵川县保留着众多的明清至民国的古
刘震云说,写手机是写拿手机的人,是写拿手机的人的说话。在刘震云看来,他的这部小说的主题是说话(语言)。刘震云自觉地对语言进行思考并不始自《手机》,早在《故乡面和花朵》中,他就
在看过冯小刚的电影《手机》后,想到王菲新专辑《将爱》中的一曲目《不留》,本来看似不搭尬的两件事,我却喜欢拉扯上来说三道四一番。觉得两者合着来说,更有一种味道。从女人
期刊
在本科化工专业课程教学中引入工程案例,并以此为辅助教学的另一条主线串联课程知识,专业实验及课程设计,使学生在各专业课程理论学习的同时,又了解课程及其单元知识在化工生
沥青路面在我国高等级道路中占有很大的比重。由于各种材料设计方法的产生,各设计方法下的室内试验方法不同,从而在设计参数上也存在差异。本课题针对目前沥青路面设计过程中
针对冷连轧机组的生产工艺特点,以带材出口前张力横向分布均匀(即板形良好)作为优化目标函数,建立了一套冷连轧机组末机架轧制参数综合优化数学模型,并将其应用到宝钢冷轧薄
本课题主要内容是建立新的价廉高效的纯化抗人EGFR单克隆抗体的色谱方法以及建立从鸡蛋清中大规模纯化溶菌酶、卵转铁蛋白和卵白蛋白的色谱方法。使用Protein A亲和色谱、离