说话人分割聚类中的建模方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:LUEYONGS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的到来,以及大数据的发展,每天接受的信息大幅增长,这些信息中包含着电话通信、电视和网络等语音信息,同时随着科技的不断发展和电子设备的大量普及,有声邮件、语音搜索等在日常生活中扮演着越来越重要的角色。面对这些如雨后春笋般出现的信息,如何从中有效提取有用的信息,是目前研究的难点和热点。说话人分割聚类融合了多种音频处理技术,并能够实现对说话人类别和说话内容的精确管理,因此说话人分割聚类技术引起了众多学者的兴趣,比如麻省理工、法国LIMSI、剑桥、伯克利等已经展开研究,且取得了一定成果,但是说话人分割聚类中仍有几大难点难以解决,比如复杂场景下建模不准确、短时语音段表示不准确、聚类效率慢以及说话人数目确定困难等,本文针对这些问题展开研究,具体内容为以下几个方面:针对复杂场景下建模不准确的问题,论文将有监督的建模方法应用到说话人分割聚类中,利用深度神经网络替代传统建模方法提取语音信号中深层次的复杂信息,将输出节点中的音素状态作为建模初始类别数,并和全差异建模相结合,从而使音素特征和说话人特征有效地解耦,最终得到对语音段更加鲁棒性的表示,从而提高系统性能。对于短时语音段表示不准确的问题,论文提出了构造基于深度神经网络的说话人类内短时语音段差异建模的方法,通过对存在差异的短时语音段进行有效建模,补偿语音段之间的差异,减少干扰信息的负面影响,从而使得低维因子向量准确的包含语音段中的说话人信息,从而使得短时语音段能够更加准确地被表示。为了能够实现高效建模的目标,提高聚类效率,论文用谱聚类的方法代替原有的层次凝聚聚类,通过计算语音段间的距离,构造基于距离的关联矩阵,利用改进的Eigen gap方法寻找最优的聚类数目,确定语音段中的说话人数目,根据已经确定的类别数,通过对关联矩阵特征结构分布的分析,对分割后的语音段进行聚类。谱聚类的方法不仅解决了说话人数目难以确定的问题,而且聚类速度高于传统的层次凝聚聚类方法。利用本文提出的三种方法,能够有效解决目前说话人分割聚类中存在的难点,通过实验结果可以表明,系统性能有大幅提升。
其他文献
针对核心无状态公平队列调度(CSFQ)的丢包算法不适用于TCP流的问题,提出了一种改进算法my-CS-FQ,能够根据网络状况动态地调整TCP流和UDP流各自的丢包行为,解决TCP流与UDP流的
通过对砂仁叶枯病病原菌(Pestalotiopsis sp.)生物学特性的研究,结果表明适宜的温度能促进菌丝生长和分生孢子萌发.菌丝生长和分生孢子萌发的最适pH值为6;麦芽糖和葡萄糖为菌丝
本文简要介绍了浅海石油勘探中声学二次定位的原理,分析了大入射角情况下浅海声线弯曲误差对声学定位的影响。针对声速测量不准和大入射角观测的问题,提出了顾及声线弯曲的多
随着教育的改革和发展,"核心素养"已经成为教育界谈论的热点话题,发展和培养学生的核心素养也成为新时代下教育目标的重要组成部分。学生的核心素养一旦形成,那将会是影响其
<正>2012年是行业重大调整的一年,许多家电、卫浴品牌都涉足厨卫电器行业,导致厨卫企业品牌生存环境日趋严峻。在如此激烈的市场环境下,欧意电器为谋取更大的发展,不仅进入包
目的对护士长管理中柔性管理的临床应用效果进行观察分析,为今后的临床护理管理工作提供可靠的参考依据。方法抽取我院全体护士作为研究对象,将其分成对照组和观察组,对照组
<正>据悉,由中国饮料工业协会主办的"2015中国蛋白饮料发展研讨会"、"2015中国果蔬汁产业峰会"将于2015年7月29~31日在安徽滁州召开。近年来,蛋白饮料市场异常活跃,蛋白饮料
目的:探讨饮酒与肝功能及红细胞参数的相关性.方法:选择我院2007-2009年住院的酒精性肝病(alcoholic liver disease,ALD)患者312例,与年龄相仿的正常非饮酒者40例作对照,进行
<正> 脊髓损伤后出现的大便功能障碍是影响患者生活质量的严重问题,对大便功能障碍的科学管理是脊髓损伤康复流程中的一项重要内容。管理的好坏直接决定着患者的康复效果,也
<正> 随着经济体制改革的发展,长海县渔业产业形成了一定的规模,并形成了捕捞、养殖、加工、运输和销售在内的门类齐全的生产经营体系。目前,长海县渔业经济生产管理相对粗放