基于类间权值调整GMM模型的场景语音分类研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:liongliong510
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来语音信号处理已成为信号处理中比较引人注目的研究领域。但是当前的研究中,无论是语音识别还是检索,针对的都是单一类别的音频文件,而在网络实际应用中,更多的情况是各种类别混合在一起的。为了完成对这一类数据的识别和检索,就需要先对它们进行分类来提取出文件中各个不同类别的部分,然后再按照单一类别的情况进行处理,而这种分类技术就被统称为场景语音分类技术。结合相关文献对场景语音分类算法的研究,本文得出目前这一领域的研究重点主要集中在:一是尽量选取能够在统计意义下有较高区分性的特征,并且选取的这一特征应兼有低计算量的特点以符合实时语音处理的要求;二是在搭建声学模型时,提出新的模型算法或者在原有算法中加以改进,提高分类的准确率和执行效率使得系统达到高稳定性。从这一思路出发,在特征的选取上,文中先对三类音频:语音、音乐及噪音文件分别完成时域及频域的多种特征的提取,然后对这些特征在帧层次及片段层次的分布进行统计,最后通过分析得出多维特征子带能量比比起其他特征来说更能从帧层次上完成对三类音频的分类,同时得出片段层次上没有相关特征能够完成分类要求。在模型的选取上,由于HMM模型和由它衍生而来的GMM模型能统计地吸收发音的声学特性和时间上的变动。因此,在现有的各种分类识别系统中,它们已经成为了最佳的识别模型;又由于GMM模型不像HMM那样通过状态转移概率约束声学特征类的时序变化,使得GMM比HMM的计算量要小的多,所以GMM比起后者更适合进行实时处理。基于上述考虑,本文选用GMM模型来用于场景语音分类。基于对传统GMM模型各个实现环节的深入研究,本文提出了一种基于类间权值调整的GMM语音分类算法。由于传统的GMM模型只考虑类内数据之间对分类建模的影响,而忽视了不同类间数据可能存在的相关性。这种相关性的存在可能会在类间数据的识别分类过程中产生一定的干扰,导致分类中出现误判。为了避免产生误判,本文在传统的GMM模型参数进行类间权值调整,通过对那些容易产生干扰的两类GMM模型参数对,可以通过对其权值进行削弱来降低它们对识别结果的影响。反之,对于那些彼此之间接近相互独立的,容易区分两类数据的参数对,可以通过对其权值进行加强来提升它们对识别结果的影响。由于本文在特征选取环节上只从帧层次上选取了子带能量比这一特征来进行GMM建模,而没有采用片段层次的特征,又由于最后的判决结果是针对于每一片段来进行的,这就导致了在实验中的两类模型得分近似一致而难以进行区分。为了弥补这一不足,本文对传统的似然判决函数进行优化,实现了对这类错误所在片段在最终判决上的平滑处理。最后对包含三类的混合文件分别在传统的GMM模型、类间权值调整GMM模型以及加入优化似然函数后的类间权值调整GMM模型下进行对比实验并采用F-measure对三类系统下的分类效果进行评价,实验结果表明相较于传统的GMM模型,本文提出的类间权值调整GMM模型用于语音分类的效果更好,同时如果进一步加上优化后的判决似然函数,识别性能可得到进一步的改善。
其他文献
数字水印技术是信息隐藏技术的重要分支之一,它是研究如何在不破坏数字载体使用价值的前提下进行水印信息的嵌入,同时不被察觉。数字水印技术因其鲁棒性、不可见性等特点,已
由于业务产生的随机性与突发性,LTE系统各小区间必然会存在负载不均衡现象:在高负载小区中,资源竞争激烈,难以满足用户的QoS需求;而在空闲小区中,无线资源又没有得到充分利用。因
图像分割是从给定图像中获取到感兴趣的目标或区域的过程,是图像处理和图像分析的重要步骤,同时也是一个比较有挑战的难题。目前图像分割技术已被广泛应用于计算机视觉,图像
搜索引擎是目前使用的最普遍的网络信息检索工具,人们对它有很强的依赖性,搜索引擎大多数采取的是基于关键词匹配检索的策略,但是随着互联网上的信息量与日俱增,这种检索策略
射频识别技术(RFID),是从20世纪80年代发展起来的一项自动识别技术,是无线电技术在自动识别领域中的具体运用。近年来,RFID技术的研究和应用在世界范围内得到了快速发展。RFI
本论文中,首先对无线通信信道特征做了简单的介绍,在分析讨论了多用户MIMO-OFDM信道估计模型的基础上,提出一种己知部分信道状态信息估计出新加入用户信号的多用户检测方法。
20世纪80年代,在不确定性问题的研究方面,人们将概率论、统计论和图论结合,从而发展起来一门新的学科——贝叶斯网络(Bayesian Networks)。由于贝叶斯网络使用形象而清晰的图
在网络通信领域中,运营商们通过提高各自传输网络的综合承载能力来满足更多用户对众多数据业务的传输需求;广大用户也加深了对高网络服务质量的需求,高可用性已经成为当今网
内容过滤是对网络内容进行监控,防止某些特定内容的信息在网络上进行传输的技术,一种能够有效识别垃圾文本信息的过滤方法具有重要的经济价值和社会价值。随着网络带宽的提高,软
近年来随着无线局域网在全世界各领域范围内广泛应用,用户对服务质量的要求不断地推动着流量控制和流量预测领域的研究,用以提升网络性能。同时,随着全球气候变暖不断加剧和