自然口语语音中非文字音频事件检测方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:abc0454
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
填音、笑声、掌声等非文字音频事件频繁地出现在自然口语语音中,它们在一定程度上能够反映出说话人的情感状态和精神状态、谈话的主题及氛围等。因此,非文字音频事件的检测可以提高语音检索系统的性能、也有助于语音情感识别、说话人识别和精彩内容的提取。本文统计分析了各类音频事件(语音、填音、笑声、掌声和其它声音)之间的时频特征差异,提出了基于遗传算法的特征参数与隐马尔可夫模型参数联合优化方法以及非文字音频事件检测的有效方法,主要贡献如下:(1)基于实验数据集,统计分析了各类音频事件在时长、基音频率、谱稳定性、音节重复性和出现的位置等方面的差异,为非文字音频事件检测提供了参考依据。(2)为了解决掌声时长变化范围非常大带来的有效模型构建困难的问题,同时解决基于滑动窗的检测方法得到的掌声边界误差比较大的问题,提出了一种基于规则的掌声快速检测方法。该方法利用掌声与非掌声事件之间的时长和基音频率差异,无需构建复杂的统计模型就能检测出会议语音中的掌声。跟基于滑动窗的检测方法相比,F1度量值提高了3.62%、节省了大约35.78%的计算时间、获得了更小的掌声边界误差。此外,该方法还能提取出混合信号段中的掌声信号子段,而基于滑动窗的方法只能将混合信号段判为掌声(如果掌声处于主导地位)或非掌声事件(如果非掌声事件处于主导地位)。(3)考虑到音频事件区分时,特征参数与隐马尔可夫模型参数设置都会对区分结果产生直接的影响,提出了一种基于遗传算法的特征参数与隐马尔可夫模型参数联合优化方法。实验结果表明:该方法在区分音频事件时获得了最高的区分正确率90.2%,得到了特征参数与隐马尔可夫模型参数的最佳匹配。与文献报道的单独优化特征参数、单独优化隐马尔可夫模型参数、特征参数与隐马尔可夫模型参数都不优化的三种方法相比,区分正确率分别提高了5.05%、3.53%和8.08%。(4)在分析了各类音频事件之间特征差异的基础上,提出了一种基于规则和统计模型的非文字音频事件检测方法。首先,采用基于规则的掌声快速检测方法检测出长掌声,接着采用基于统计模型的方法检测出其它非文字音频事件。实验结果表明:该方法检测三种非文字音频事件(笑声、掌声、填音)的平均准确率、召回率和F1度量值分别为87.3%、93.77%和90.42%。跟基于滑动窗的检测方法相比,检测填音、笑声和掌声的平均F1度量值提高了7.52%,而且获得了更小的边界误差。综上所述,本文以自然口语语音中的非文字音频事件作为研究对象,对非文字音频事件的自动区分、检测问题进行了深入地研究,并取得了一些有益的研究成果,为进一步提高语音检索系统的性能奠定了基础。
其他文献
随着网络技术的迅速普及与发展,网络中敏感信息的保护已变得越来越重要。密码协议正是为通信的双方或多方提供这样的安全保证。然而,由于网络本身的开放性,其中存在着严重的
通过对红外分光光谱法、洗涤减量法及核磁共振法3种涤纶工业长丝含油率测试方法的比较,找出这3种方法之间的不同及相互联系,认为核磁共振法具有测试速度快、操作简单、测试精度
紧缩场(Compact Range,CR)技术研究是天线与目标特性测量领域的重要课题。时域测量技术应用在紧缩场系统中是紧缩场技术发展过程中取得的一项重要成果。在过去的几年中,作者
囊性肿物用酒精或碘酒进行内膜烧灼使内膜细胞灭活进行治疗的方法已有多年,我院10余年来对5种囊性肿物共158例进行治疗,效果不同,现分析如下:
3月21日,国务院召开第五次廉政工作会议,中共中央政治局常委、国务院总理李克强发表讲话。他强调,进一步加强国资国企和金融监管。在国企重组改制中既要大胆改革创新,促进国企瘦身健体提质增效,又要防止国有资产被侵吞。健全境外国资经营业绩考核和责任追究制度,严格境外特别重大投资项目出资人审核把关程序。积极稳妥推进金融监管体制改革,增强监管合力,强化金融机构内部控制,严防金融风险和腐败。  财政部:取消调整
目的:探讨p16和K-ras基因在良恶性胸水细胞中的突变情况及对肺癌的诊断作用。方法:研究组为54例伴有恶性胸水的肺癌患者,对照组为28例出现胸水的结核性胸膜炎和其他炎性胸膜炎
坚持和发展中国特色现代国有公司治理制度,要置于现代国有企业领导体制的大框架中来理解。经过长期发展,特别是进入新世纪以来,发达市场经济国家企业在完善公司法人治理结构或者
新疆北部塔城盆地南缘下二叠统卡拉岗组发育一套陆相沉积的暗色泥岩,在伯依布谢水库北侧厚达131.77m,通过采集11组样品进行有机碳含量、岩石热解、氯仿沥青“A”、族组成、镜
目前.对恶性肿瘤的治疗,特别是如何改善患者心身疾病,提高生存质量、延长患者生存期,仍是肿瘤界的一大难题。中西医结合方法。把对肿瘤的局部治疗与对机体的全面关注紧密结合起来
随着异构网络的逐渐融合以及不同终端设备的不断涌现,视频流在互联网上的应用日益广泛。人们对视频编码提出了更高的要求,即能够动态地根据用户的要求、网络的特性和设备的处