基于锚空间的音频场景识别方法研究

被引量 : 0次 | 上传用户:weijie1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代信息技术,特别是数字信号处理技术、网络多媒体技术的迅猛发展,越来越多的声音信号被数字化处理,并以各种音频格式存在。基于此,人们迫切地需要能够在音频数据流中对音频内容进行识别和理解的有效技术手段,从而高效地利用这些音频资源,并为各种智能系统提供基于声音的决策依据信息。音频场景是指语义上相关,时间上相邻的若干声学事件所组成的一个音频片段,此片段总是蕴含着高层抽象概念和特定的语义表达。音频场景识别是对音频语义内容高层次的识别和理解,该技术可广泛应用于信息内容安全、智能监控、无人驾驶车辆、智能会议室等领域。传统的音频场景识别方法,如高斯混合模型方法等,一般在短时上进行建模和识别,在长时上根据短时得分进行综合判决。这种方法忽略了声学内容在长时上的分布特性,且不适用于目标声学内容与非目标内容混杂的情况。本文提出了三种在长时上进行建模的锚空间音频场景识别方法,并设计了一个识别任务对这三种方法的性能进行了验证,在一段娱乐节目中根据音频寻找“令人激动”的场景片段,该场景一般对应较激烈的欢笑声和鼓掌声等。锚可以看作一个类别的原型表示,是根据信号产生的矢量到类别的一种映射关系。本文提出了三种面向音频场景的锚空间构造方法,并设计了相应的场景识别方法:1)基于状态变化统计量的锚空间音频场景识别方法。此方法将音频特征在时序上的变化量转化为若干变化状态,基于这些变化状态的统计信息张成锚空间,每个目标音频文件在此锚空间中映射成一个锚矢量,将此锚矢量当作目标场景的一个模板,从而构成目标场景库;2)基于高斯混合模型的锚空间音频场景识别方法。训练数据的目标音频文件训练得到目标高斯混合模型,集外音频文件训练得到集外高斯混合模型,基于各高斯分量的均值矢量张成锚空间,通过计算余弦距离将音频帧映射到锚空间中的一个点,求全部目标场景文件各帧在锚空间中的样本均值作为锚模板,目标场景由此锚模板表示;3)基于稀疏分解的锚空间音频场景识别方法。训练数据的目标音频文件训练得到目标字典,集外音频文件训练得到集外字典,基于其字典原子张成锚空间,稀疏分解得到的稀疏系数为此锚空间的坐标。实验数据为从网络上下载的娱乐节目,实验结果表明,三种基于锚空间的方法对节目中令人激动的场景都有很好的识别效果。特别是基于状态变化统计量的锚空间音频场景识别方法,其召回率达到85.67%时,其对应的错误接收率仅为9.57%。最后通过系统总结,提出了尚需完善和改进的方面。
其他文献
阿瑟·米勒的《萨勒姆的女巫》和凯丽尔·丘吉尔的《醋汤姆》是两部讲述17世纪女巫事件的历史剧。本文通过分析剧作家在建构女巫历史,特别是在建构处于女巫事件中心的女性形
自古以来,关于名师与高徒之间的关系一直是人们十分关注而又争论颇多的一个教育问题。其实,名师出高徒只是一种教育现象,而不是必然规律。高徒抬名师也只是一种教育现象,也不
加强共产党员道德建设具有重要的社会意义,本文提出新时期如何加强党员道德建设的有效途径,指出共产党员的道德建设应该从慎思、慎欲、慎微、慎独四个方面做起。
在指导员工持股计划实施的各项法律法规不断完善的大背景下,越来越多的企业积极实施员工持股计划,并且实施的计划更符合规范,企业员工也大力配合计划的推行,股东与员工共享公
男性常有难言之隐,于是有人会求助于伟哥,但其实伟哥类药物也不过是救急不治本,同时还存在一定的副作用。与其长期服药,还不如在普通食物中找一找补肾壮阳的“伟哥”。比如以下这
报纸
目的探讨甲状旁腺CT三维重组在难治性继发性甲状旁腺功能亢进症(SHPT)术前诊断与评价中的应用价值,并分析增生甲状旁腺的体积与主要生化指标的相关性。方法 48例确诊SHPT患者
党的十六大提出,“统筹城乡经济社会发展,建设现代农业,发展农村经济,增加农民收入,是全面建设小康社会的重大任务”。这是党中央根据新世纪我国经济社会发展的时代特征和主
人民币汇率变化对我国的经济发展有着重要的作用,汇率变动通过影响我国吸收外商直接投资的能力,间接对我国的经济发展产生作用。在我国引进外商直接投资的30年时间里,外商直
天麻(Gastrodia elata)是兰科(Orchidaceae)多年生共生草本植物,是主产于我国的传统常用名贵中药。主要生长于海拔400~3200米的疏林下、林中空地、林缘和灌丛边缘,其球茎具有
正弦干扰是实际控制系统中普遍存在的一种现象,影响到系统控制精度甚至导致系统失稳。提出一种基于输出反馈的干扰抵消和抑制方法,利用辅助滤波器构造虚拟干扰,通过反向递推