说话人分割与聚类的关键技术研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:wudi120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人分割聚类技术是近几年语音信号处理研究的一个热点方向,它主要回答“谁在什么时间说话”的问题。目前,这项技术在多说话人识别、说话人检索和自适应语音识别等领域得了广泛的应用。  为了进一步推动说话人分割与聚类研究的发展,本文从说话人变换点检测技术的融合、说话人分割音段的快速聚类、说话人自动聚类数目估计和重叠语音检测,以及基于深层神经网络的说话人因子特征提取等几个方面对说话人分割与聚类的关键技术进行研究,主要的研究成果包括以下几个方面:  1.提出了基于融合技术的说话人变换点检测方法。为了解决单一技术的说话人变换点检测算法的局限性,进一步提高变换点检测正确率,本文提出了基于级联融合和并联融合的说话人变换点检测方法。通过在NIST1998语音库上的实验表明,本文所提的方法使说话人变换点检测的性能有明显提高。  2.提出了用于说话人超矢量特征的基于改进谱聚类的说话人聚类算法。首先,为了提高分割后说话人音段聚类的速度和稳定性,本文在语音的超矢量特征空间,提出了基于改进谱聚类的说话人聚类算法。其次,为了解决说话人数目未知的问题,在谱聚类的计算过程中,本文根据本征间隙方法来估计说话人数目。最后,本文利用辨别成分分析算法对语音的超矢量特征进行变换,提取说话人的辨别性因子特征,进一步提高了说话人数目估计的正确率,进而提高说话人聚类纯度。在NIST1998数据库和TIMIT语音构成的多说话人数据上的实验结果表明,本文所提的说话人聚类算法较经典算法在计算效率和稳定性方面有一定的提高,且所提取的辨别性的说话人因子特征能使说话人数目估计的正确性提高16%,同时提升了说话人聚类的纯度。  3.提出了基于高层信息特征的重叠语音检测方法。在说话人分割聚类的研究中,重叠语音的存在大大影响系统的性能,为了提高说话人分割性能,本文利用语音中的高层信息特征训练HMM,并用其检测重叠音段。首先,以语言学知识为指导,利用通用背景模型提取语音中类语言学信息的声学特征,定量分析所提取的特征对重叠音和非重叠音的区分性能,其次,利用所提特征融合MFCC特征建立HMM模型,通过Viterbi解码检测语流中的重叠语音段。实验结果显示,所提方法使重叠语音检测的错误率降低了22.7%,而且经重叠语音检测后,说话人分割的性能也有一定的提升。  4.提出了基于辨别性深层信念网络的说话人分割方法。由于语音信号中包含语音内容、说话人信息和情感信息等复杂成分,所以常用的语音特征无法明显区分不同说话人类别,致使说话人分割效果不佳。鉴于此,本文提出了利用Fisher准则训练辨别性深层信念网络,用其从语音的超矢量特征中提取辨别性的说话人因子特征,并通过K-means聚类得到每帧语音的类别标号,从而实现对说话人分割的目的。在TIMIT数据库生成的多说话人语音数据上的实验表明,所提方法对说话人分割的性能明显高于经典BIC算法和基于普通深度信念网络的方法。  5.提出了采用边信息训练稀疏性神经网络的说话人分割方法。在语音信号的特征中,说话人特征具有较强的稀疏性的特点,非说话人信息的存在影响说话人分割和聚类的性能。本文提出了采用输入样本类别标号的边信息训练稀疏单隐含层神经网络和稀疏深层神经网络的算法,用它分别从语音的超矢量特征中提取稀疏性的说话人因子特征,并利用K-means聚类获取每帧语音的类别标号,进而从连续语流中分割不同的说话人。在TIMIT数据库生成的多说话人数据上的实验结果显示,所提两种稀疏神经网络方法对说话人分割的F1指标而言,比经典BIC方法分别提高了12.6%和8.9%,性能明显优于对应的一般稀疏神经网络方法。
其他文献
汽车牌照识别(Car License Plate Recognition,CLPR)系统是智能交通管理系统中的重要组成部分,在电子收费、车流监控、出入控制等场合有着广泛的应用.该论文对项目组研究开发并
该文主要在用户电网实是监测与控制方面开展了以下工作:该文首次提出了一种基于电磁变换原理的电网谐波检测新方法.为实现对用户电网的数据分析以及对用户电力调节系统运行性
生物膜是生命活动中许多重要反应发生的场所,细胞的能量转换、信息识别与传递、物质运送和分配等基本生命现象都与生物膜密切相关。而在生物膜中,发挥这些生物功能的主要物质
该论文对与设计高线性、高效率功率放大器的相关问题进行了研究,主要分为以下几个部分内容.1、选取高性能的器件.通过对功率放大器常用器件的综合性能进行比较,我们选取了GaI
目前,建立生态补偿机制正成为国内社会各界的热点问题,然而理论研究中对生态补偿的概念、内涵、补偿标准、补偿方式、补偿资金来源等核心问题尚不清晰,这使得生态补偿难以纳入社
学位
跨损伤DNA合成(TLS)是生物机体面对DNA损伤的一种应急性机制,在复制叉遇到损伤而无法通过时,能够在损伤DNA对面直接合成DNA,从而跨过损伤。由于TLS聚合酶保真性较低,容易引入突变
目前,基于知识库的系统已成为自然语言处理研究的重点.而自动构建知识库正是这个重点中较难的部分.该文研究的是:利用自然语言处理的方法从大量文本中自动获取词汇知识.从知
植物发育是一个集细胞分裂、生长和分化为一体的过程,细胞分裂是受细胞周期调控的。在细胞周期中,有两个关键的控制点,即G1/S期、G2/M期的转变。在拟南芥中,D型细胞周期蛋白CYCD3
SNX9是近年发现的一种蛋白分选与转运蛋白,属于SNX家族。目前研究发现SNX9具有参与网格蛋白介导的内吞作用,参与依赖于肌动蛋白的液相内吞,参与物质在细胞内的加工、运输和亚细
该论文在阐述国内外超窄带光学滤波器发展现状的基础上,从理论和实验两个方面对于主、被动式可调谐超窄带滤彼器进行了研究. 采用半经典理论和不可约张量代数方法对于超窄带