说话人识别语音库构建技术的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xiaofeiyu520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术如今在日常生活中得到广泛地应用。由于移动互联网的快速发展,语音数据量正在不断地增长,大规模应用下的快速识别任务成为新的研究热点。然而对于研究人员来说,除去算法层面的挑战,如何构建一个大规模的说话人识别语音库是新的难题。传统的说话人识别语音库的构建方式成本高昂且时间周期长,难以满足当前的需求。本课题以互联网上海量的语音资源作为提取目标,针对实际的应用场景设计了一套以说话人分割与聚类技术为核心的说话人识别语音库构建方法。该方法不仅降低了语音采集阶段的金钱成本,并利用半自动的处理方式极大地缩短构建的时间周期。本文重点研究了语音库构建过程中语音提取、语音检验等核心问题。在语音提取方面,主要针对端点检测、聚类测度、模型选择三个方面做出改进。基于频谱熵的端点检测特点提出了一种改进的带熵检测特征,实验证明该特征在复杂背景下依旧能保持稳定的检测能力。结合本课题的数据特点及应用目的,设计了一种基于T2距离与信息量差异的两级说话人聚类判决算法,实验结果显示该算法能有效地改善说话人聚类的效果,并设计了一种停止阈值计算公式,使聚类能在合适的位置停止。说话人建模阶段,在分析了出现误判的原因的基础上,设计了一种基于背景噪声与全局说话人模型的似然得分之差的语音过滤方法,能够在数据帧层面上去除掉无效的语音。在语音检验方面,以说话人确认技术为基础设计了一种语音检验与语音过滤机制,以达到语音类型判断以及语音去重的目的。结合上述提出的语音提取与语音检验方式,本文设计了一套完整的语音库构建方法。通过对比实验结果可以看到,提出的改进算法在说话人聚类效果上有明显的提升。最后基于此方法,构建了一个包含18833位说话人的初具规模的说话人识别语音库,并通过抽样调查的方式验证了其可用性。
其他文献
目的探讨不同手术方式对治疗妇科卵巢囊肿的临床效果。方法选取妇科卵巢囊肿的80例患者作为研究对象,采用抽签法随机抽取40例妇科卵巢囊的患者作为观察组,进行腹腔镜手术;抽
目的:通过对193例面颊瘘患者的临床分析,对其病因、发病部位、诊断、治疗及误诊误治原因、预防进行总结。方法:根据瘘管的相关征象进行病因诊断后,针对发病原因进行治疗。结
本文在常规潮汐调和分析方法的基础上,提出了一种由高低潮资料进行潮汐分析的算法。具体计算表明,该算法与现今通用的常规算法(即等间隔最小二乘法)相比,既可大大减少所需原始样本
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文主要介绍气氛烧结氮化硅(Si3N4)陶瓷刀具材料的制造工艺特点及物理机械性能,分析用该陶瓷刀具粗加工、半精加工铸铁材料时的切削机理及刀具切削性能,并阐述用该陶瓷刀具切
tk基因在肿瘤基因治疗中的应用及进展吴小兵广州第一军医大学生化教研室,广州510515)关键词tk基因,肿瘤,基因治疗随着分子生物学技术的发展,肿瘤的基因治疗正由实验研究走向临床。利用tk基因转
测量方案是由Naor和Pinkas引入,它被用于测量网络中,在一定的时间段,客户和服务器之间的关系,为了在任何间隔测量访问的数量, Carlo Blundo, Annalisa De Bonis, Barbara Mas
传统IP网络不能充分地支持话音和视频等实时性业务,不适应因特网业务的快速发展.基于对携带标记的IP分组进行交换的IP分组标记交换(IPLS)技术,通过在边缘结点对业务流进行分
本文对江小白品牌战略进行了分析,并通过营销环境SWOT分析,从而认识江小白目前的市场行情,结合当下年轻人的消费观念,从4P理论制定江小白品牌的相应营销策略。
本文对我院2010-01—2011-01收治的30例小儿先天性心脏病术后神经系统并发症患者的临床护理方法进行回顾性分析,具体分析如下。1资料与方法1.1临床资料选取我院2010-01—2011