面向语料采集系统的非并发说话人分离技术研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:HONEYMXR
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能技术发展到今天,数据资源成为了各大研究机构在人工智能领域能否取得领先地位的关键。研究如何从互联网上海量数据资源中获取感兴趣的音频数据,己成为很多大学和研究机构的研究热点之一。现有的一些开源语料采集系统大多基于分布式爬虫结构,在爬取网页中非并发的说话人音频资源时,缺乏一个有效的按性别区分的说话人分离方案,而不经分离处理的语料资源实际应用价值损失很大。针对上述问题,本学位论文依托实习单位“语音叫车”项目,利用互联网中非并发的说话人音频资源,研究了一种基于性别的说话人分离方法。在基于Hadoop的语料采集系统中,上述方法是说话人分离子系统的核心。采集系统中由爬虫网络爬取的非并发说话人音频数据,经过说话人分离子系统处理,输出两类带性别标记的语料。本文所研说话人分离方法包含了两个关键步骤:基于贝叶斯信息准则与通用背景模型(BIC-UBM)混合方法的说话人分割以及基于深度神经网络(DNN)的说话人性别识别。基于BIC-UBM的说话人分割以找出音频中说话人性别发生转换的位置为目的,并按照这种说话人转折点对音频进行分割,是一种先进行说话人转折点检测再进行转折点真伪鉴别的二步判决方法;基于DNN的性别识别网络对分割得到的语音片段进行性别识别,根据识别结果输出两类语音信号。本文以实习单位提供的客服通话语音作为实验语料库,实验结果表明,本文所研说话人分割方法对包含多个说话人转折点的语音分割准确度达到了 94.2%,转折点检测的漏警率为5.8%、虚警率为15.5%。基于DNN的说话人性别识别方法对语音片段的性别识别准确度最高可达96%,其中男性样本识别查全率为94%,女性样本识别查全率为98%。本文所研基于性别的说话人分离方法满足了相关语料采集系统的要求,为“语音叫车”项目后续的模型训练工作提供了良好的语料基础。
其他文献
在零样本图像识别中,标签已知的样本集称为源域,标签未知的样本集称为目标域,源域中样本的类别标签不同于目标域中样本的类别标签。零样本图像识别算法利用语义属性作为桥梁,将源域的知识迁移到目标域,从而识别目标域中样本的标签。已有的零样本图像识别算法将源域中训练出的识别模型直接应用到目标域,忽略了已知类样本集和未知类样本集在样本分布上的差异性,会导致投影域迁移问题。此外,目前的零样本图像识别模型用样本所属
目的探讨非营养性吸吮(NNS)在极低出生体重儿(VLBWI)中的应用效果。方法对2011年6月~2013年6月在儿科NICU住院的98例VLBWI患儿,根据随机数字表分为研究组和对照组各49例,研究
本文就高通量工程试验堆、岷江试验堆和中国脉冲堆特点作出比较,重点分析高通量工程试验堆的安全性。经过比较,中国脉冲堆具有良好的安全性.安全性远比岷江试验堆和高通量工程试
辽、金两朝都是我国北方强大的少数民族建立的政权,都曾经统一过北方,都在保留本民族制度特点的同时吸取中原的制度,促进了北方的发展、促进了民族融合。辽末金初之时,这两个
郑板桥的矛盾人格主要表现在:积极进取的儒士人格和惊世骇俗的狂怪人格两个方面,而造成这种人格的成因则主要归结为:儒家正统教育的塑造,狂狷名士之风的继承,以及当时的个性主义思
人民币的重要性随着我国国际地位的提升而不断加强,世界各国都更加关注人民币的汇率问题。维持我国汇率的稳定,对于维持世界经济的稳定发展有着重要的作用。我国汇率制度自新
近年来,对脑组织损伤的神经生化标志物的研究正在逐步深入,这些标志物主要为S100蛋白和神经元特异性烯醇化酶(neuron specific enolase,NSE)等。本文根据近年来的文献报道,对S1
教学活动能否取得应有的效果,教师备课是关键,而编写教案是教师备课的重要环节。教师如何写出有个性特点,有创新的教案,教案编写如何由静态向动态转变,如何注意"教案"与"学案"的
采用量子化学密度泛函理论B3LYP方法在6-311++G(d,p)基组水平上,对6-硫代鸟嘌呤硫醇式与硫酮式两类共14种磺化异构体的热力学稳定性进行了计算研究,全自由度优化了各物种构型
当前,监控视频存储系统通常将视频图像数据与语义数据存储在分布式数据库中,依靠冗余存储和数据分块提供稳定和高吞吐的视频数据存储与检索服务。然而,对交通监控等复杂场景,