基于GMM和分级聚类的说话人聚类方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:JK0803_shijiwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,对音频信息进行自动分类和检索是语音信号处理领域的最新研究课题之一,而说话人分割(Speaker Segmentation)与说话人聚类(Speaker Clustering)是其中关键的技术成分,该文重点研究了说话人聚类问题.针对测试语音只包含两个说话人的情况,该文提出了基于GMM(Gaussian Mixture Models)模型的说话人聚类算法.该算法的出发点是:测试语音包含甲与乙两人的语音;说话人分割将整个测试语音分割成了一系列语音片段,某语音段A[i]属于甲人;与语音段A[i]最相似的语音段应该属于甲人,最不相似的语音段应该属于乙人,利用这个原理可以收集到甲与乙的训练语音数据用于训练各自的GMM模型;然后用GMM模型对其余的语音段进行说话人辨认,就完成了将所有语音段聚合成两个类的目标.当测试语音中的说话人数目不限定时,采用分级聚类的方法进行说话人聚类是一种很好的选择.但是,分级聚类算法的计算量近似与初始类别数目的平方成正比,计算量较大.因此,该文提出了两种计算量不大的"预聚合"方法,可以大大地减少分级聚类前的初始类数,从而减少分级聚类的计算量.这两种"预聚合"方法的思路都是通过将相似的语音段进行合并,以减少分级聚类前的语音段数(即减少了初始的类别数目).该文对测试语音包含两个说话人和多个说话人的语音数据库分别进行了实验,并分析了算法复杂度.对测试语音包含两个说话人的语音数据库,基于GMM的说话人聚类算法的类纯度最高达到了94.5﹪,比基本分级聚类算法的类纯度高0.7﹪.在算法复杂度方面:基于GMM的说话人聚类算法的计算量主要集中在"训练GMM模型"和"说话人辨认"阶段;"说话人辨认"阶段的计算量与测试语音段的数目N成正比,"训练GMM模型"阶段的计算量与训练语音的数量M(M《N)成正比;而基本分级聚类计算量近似与N<2>成正比.对测试语音包含多个说话人的语音数据库,该文提出的两种"预聚合"算法,大大地减少了分级聚类的计算量:采用"预聚合"1的分级聚类算法的总计算量最多是基本分级聚类L计算量的L/N倍;在图5.1的情况下,采用"预聚合"2的分级聚类算法的总计算量约是基本分级聚类计算量的L/2L+(L/N)<2>倍.其中,L
其他文献
摄影师Stephan Zirwes,1967年出生于德国,他的作品令人眼界大开,叹为观止。其影像作品非常简洁干净。大部分是航拍,所拍摄的影像富涵点、线、面以及直线曲线等几何构成,把“
现有的网络带宽濒临枯竭,必须提高网络的容量以满足日益增长的IP业务对网络带宽的需求.光交换是提高网络容量的关键,目前可行的光交换协议主要包括光突发交换和光分组交换.光
随着抗生素耐药菌日益增多,迫切需要研究新的药物,酮内酯类抗生素的抗感染耐药菌方面最有希望.鉴于目前酮内酯类抗生素均为化学方法对红霉素结构进行修饰,设计改造红霉素生物
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
随着通信技术的发展和人们生活水平的提高,通信网络用户的数量不断增加,网络业务出现综合化、多样化的发展态势.网络带宽与系统容量、服务质量的矛盾日益突出,传统的64kbps的
目前,随着城域网中数据流量的增加,数据业务已经成为城域网的主流业务,而城域网络采用地技术主要有SDH和以太网技术,这些技术已经在域域网多业务面前力不从心,主要表现为:SDH
未来的移动计算网络是由多种无线媒质接入Internet的复杂多层次的立体结构,要求网络层支持IP的移动性.移动IP是目前支持主机网络层移动的移动路由标准,使得移动终端可以在保
视频业务给无线网络带来了两方面的挑战:用户对业务质量更高的体验要求和无线网络能耗的快速增长,在确保视频业务质量的前提下降低网络的能耗是未来无线网络亟待解决的问题。
摘要:隨着我国经济的不断发展,多媒体技术在学校教学过程中得到了广泛的应用。在低年级小学语文教学中,开展多媒体知识可视化教学,可以有效提高教学水平。本文分析了我国小学低段语文教学中存在的问题,探讨了开展小学低段语文课堂知识视觉教学的具体策略,以促进我国教育工作的有效发展。  关键词:小学低段;语文教学;知识可视化  一、小学语文教学中知识可视化教学的优势  在低段小学语文教学中,使用知识可视化教学有
随着Intemet的迅猛发展,Web已经成为包含着海量数据的信息宝库.人们几乎可以在这个信息宝库中找到任何领域的相关信息.然而,正是由于数据量极其庞大,用户要在Web信息宝库里找