基于近邻传播聚类与集成学习的说话人识别

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:winddss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术相较于其他生物识别技术更加自然,但从技术成熟度来讲,说话人识别技术仍然是在发展中的生物识别技术。目前说话人识别技术中存在两方面的技术难题,从特征提取角度来看,由于人体发声系统的易变性,需要从大量的语音样本中提取说话人的声纹特征,大量冗余样本的存在为训练分类模型带来了极大困难。从识别方法角度来看,采用单分类器的说话人识别系统的泛化能力较弱,分类器的分类精度较低。针对上述问题,本文做了如下研究:(1)针对不同应用环境的语音信号特征提取方法。在现实环境中说话人发声过程中存在不同程度的噪声干扰,针对不同噪声环境采用正确的语音特征才能实现对说话人特征的有效表征。通过真实场景的实验对比研究,针对强噪声环境,提取梅尔频率倒谱系数及其差分系数作为单帧信号的特征能够有效地去除噪声影响,对语音信号的表征能力较好;针对弱噪声环境,幂率归一化倒谱系数及其差分系数作为单帧信号的特征可以在相同计算复杂度下更好的表征语音信号。(2)基于近邻传播(AP)聚类的声纹特征样本筛选方法。针对说话人声纹样本数量过大导致分类器训练成本较高问题,利用AP聚类对单帧信号特征样本集进行聚类,原型样本在其簇内具有典型代表性,利用聚类原型样本表征与其相似的样本,删除冗余样本,实现语音信号特征样本筛选。在实际数据集上的对比实验表明,本文提出的样本筛选方法在保证识别准确率的基础上,能够有效压缩训练样本集合,压缩率能够达到85.19%-92.95%,从而大幅降低分类器训练成本。(3)基于集成学习的说话人识别系统构建方法。针对单分类器说话人识别模型泛化能力较弱的问题,通过多次随机抽样抽取训练样本子集,采用随机BP神经网络算法参数扰动策略建立多个BP神经网络分类模型,并利用投票法确定最终的分类结果。实验结果表明,该方法有效克服了基于单分类器说话人识别系统泛化能力不足的问题,使得系统识别率得到了有效提升。无论是高保真的AISHELL中文数据库的实验结果还是针对不同噪声环境下采集的自采集数据库的实验结果,都表明了本文所提方法的有效性。本文所提出的近邻传播聚类方法能在保证表征说话人本征特征的同时降低网络训练成本,提出的基于多BP神经网络的集成学习框架提高了说话人识别系统的泛化能力与准确性,丰富了说话人识别技术的相关理论和实践。
其他文献
文中介绍了新型半导体防晕带的制造及应用情况。对半导体漆带的配比、制造工艺、以及在6万和12.5万千瓦机上的应用情况文中均有详细叙述。
以往研究证明,社会行为与学业成就能够预测同伴地位,但对教师在其中如何发挥作用尚缺乏充分的实证研究。然而教师在班级生态网络中拥有较为特殊的地位,能够为同伴互动提供一
<正>一、竹子与中国传统园林的渊源竹子作为我国传统的观赏植物之一,有着悠久的园林应用历史。早在周朝时期,我国已有关于竹林的记载。秦始皇为建"上林苑",从山西云冈引种竹
定子线棒绝缘是三峡水轮发电机两项关键技术之一。分析比较了国外和国内供货商设计制造三峡发电机定子线棒主绝缘的技术特点 ,指出应注意的问题。哈电和东电采用多胶带模压工
利用氢敏化处理的多模光纤制作了多模光纤光栅 ,并对多模光纤光栅的温度传感特性进行了实验研究与理论分析 ,表明这种光栅三个反射峰的布拉格波长随温度变化均呈现出良好的线
通过计算机模型模拟发电机定子线棒端部电场 ,进行电场分析和研究 ,建立定子端部电场模型。利用遗传算法优化定子端部防晕结构 ,定量确定影响防晕结构的关键因子 ,进行碳化硅
室温工作的连续可调谐相干光源在痕量气体检测技术中有着重要应用价值,光学非线性变换是获得室温运转中红外相干光源的有效途径,是对传统激光技术的有效补充。研究了基于准相
我国关于电机绝缘泄漏电流的标准是针对普通绕组制定的,而近年来出现一种新的可以被称为绕组端部表面全覆盖防晕结构的电机,其绕组的泄漏电流一般远远大于普通绕组的泄漏电流
从波导微环谐振腔的光场传输函数出发,推导出其延时响应函数,分析了微环波导损耗对其延时响应特性的影响,发现应用于光学相控阵天线系统的微环谐振腔光延时线必须工作于过耦