对话语音中的目标说话人检测和定位

来源 :中山大学 | 被引量 : 0次 | 上传用户:yaoyie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文主要研究在对话语音中检测目标说话人,并定位目标说话人语音的问题。目标说话人检测,是指在一段多个人连续说话的对话语音中判断目标说话人是否出现;目标说话人定位,是指在目标说话人检测的基础上,当检测到目标说话人在对话语音中出现时,对目标说话人在对话语音中出现的具体的时间段进行估计。本文的研究基于事先已经知道目标说话人这样一个前提。   目前,对话语音中的目标说话人检测和定位问题,主要是采用以下方法来解决。首先,检测出对话语音中的说话人跳变点,将不同说话人的语音分割开来;然后,对分割后的语音段进行说话人聚类处理;最后,使用单个说话人识别技术在对话语音中识别出目标说话人的语音,从而达到在对话语音中检测和定位目标说话人的目的。我们将这种基于说话人的语音分割、聚类以及说话人识别的方法称为硬分割。本文在研究和总结前人成果的基础上,针对硬分割的缺陷,结合实际情况,提出了单帧对数似然比算法。相对于硬分割,本文将这种基于单帧对数似然比算法进行对话语音中的目标说话人检测和定位的方法称为软分割。   与硬分割相比,软分割主要有以下几个优点:第一,充分利用了已知目标说话人这个先验知识,将目标说话人检测问题作为解决目标说话人定位问题的前提和基础,只有在对话语音中检测到目标说话人的情况下才进行目标说话人定位。因此,软分割方法更为简洁、高效。第二,在参与对话的说话人个数未知的情况下,由于不需要对对话语音进行基于说话人跳变点的细致分割,因此在这种情况下软分割仍然适用;而硬分割在这种情况下因无法进行准确的说话人聚类而不再适用。   实验表明,从总体上来说,软分割的性能要好于硬分割。而且,软分割的实用性、实时性以及鲁棒性均要好于硬分割。   
其他文献
北京华油天然气有限责任公司作为中国石油下属一级企业,采用SCADA(SupervisionControlAndDataAcquisition,数据采集与监控)对陕京输气管道进行监控;通过EAM(EnterpriseAssetMana
VANET是一种新型的移动自组织网络(MANET),它将行驶在道路上的车辆都虚拟成网络中的一个移动节点,将路边的通信设施虚拟为静态节点,然后节点之间都可以通过多跳的形式进行无线通
随着网络技术与应用的发展,各种各样的安全协议层出不穷,安全协议的实现与应用也日益复杂。如何屏蔽不同安全协议的差异,以减少应用软件系统集成的复杂度成为一个重要技术课
本文阐述了非处方药的概念及发展现状,指出了目前在我国非处药的使用中存在的主要问题。从普通百姓生活及医疗保健的实用角度出发,分析了对OTC网上智能咨询系统开发研究的实
本文首先通过对其定义与历史的阐述,对其特点和与其他移动网络系统的区别的分析,及对其应用领域的讨论,简要介绍了这种网络,接着阐述了移动自组网的体系结构及关键技术,介绍了在
  工作流管理系统是一个软件系统,它完成工作流的定义和管理,并按照在计算机中预先定义好的工作流逻辑推进工作流实例的执行。工作流客户端程序是一种让一般用户直接通过Web
论文基于J2EE平台针对XML开发多层应用程序的问题,进行了分析和研究,提出了一个基于J2EE和XML的多层应用程序架构。该架构在传统的J2EE多层模型(Web层、EJB层、企业信息系统层)
本文研究了几何逼近和几何求解中的三个问题。 第一章中,首先回顾了国内外几何逼近和几何求解的相关研究发展。第二章中,我们讨论了圆域Bézier曲线的合并问题。圆域Bézier
无缝钢管是一种非常重要的工业材料,广泛应用于石油、化工、锅炉、电站、船舶、机械制造、汽车、航空、航天、能源、地质、建筑及军工等各个领域。合同组批是无缝钢管生产过
本文在前人研究的基础上,结合国内外的最新发展动态,通过大量的资料采集、整理和分析,结合具体实例对XML数据库技术的存储和查询领域及其应用进行了分析和研究。本文中还用实