场景依赖的关键音频事件检测

被引量 : 5次 | 上传用户:shijunfengmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在处理多媒体数字信息时,特别是对多媒体文件进行语义层的解析、归纳和建索引时,音频信息常会起到关键作用。目前,很多研究工作都围绕对纯净、单一的音频事件进行检测和识别,而对于多媒体文件,如电影等,音频事件种类繁多,其主要难点是音频场景复杂多样,其中的音频事件类型多变,有大量容易混淆的音频种类,而且音频事件常常同时发生,在时间上有交叠,使得音频数据样点在特征空间内分布复杂。此时,现有的对单一音频事件的检测和识别的方法就有很大的局限性。本文主要针对电影等复杂音频环境,研究单一音频事件的检测,基于信息熵混叠音频事件检测,其中重点研究,在混叠音频环境中,场景依赖的音频事件检测和识别。本文的主要工作如下:1、单一音频事件检测研究对单一、纯净的音频事件的检测是音频场景分割和识别的基础,本文分别采用混合高斯模型GMM模型和支持向量机模型SVM,针对电影音频应用中经常出现的音频事件进行建模和识别。针对复杂音频环境中,音频事件的特点,对比GMM和SVM分类器的特点和分类结果,选择更适合做音频事件分类与检测的分类器。同时针对不平衡数据集的分类做了初步的研究和探索,提出了欠采样改进的办法。2、提出一种基于信息熵计算的混叠音频事件检测算法针对复杂音频环境中的混叠音频事件,提出了一种以信息熵和关键音频事件检测为判断依据(Information Entropy Criteria-Event Detection, IEC-ED)的混叠音频事件检测的方法。在对音频进行分析时,人们对一个具有完整语义的音频场景的认知更感兴趣,因此在语义分析时,需要保留音频场景的语义完整性。由于场景中会有若干不同的音频事件交替或重叠出现,因此不能根据单一的音频事件判断复杂音频场景的语义信息,对于这种情况,可以通过信息熵判决及音频事件检测判断复杂音频场景中混叠音频片段。3、提出一种场景依赖的音频事件建模算法对于混叠音频事件识别,提出一种采用统一背景模型GMM-UBM (GMM-Universal Background Model)模型的识别方法,同时对音频场景和其中的关键音频事件建模,首先对完整的音频场景进行建模得到UBM,并使之尽可能包含完整的场景信息,然后在UBM的基础上,为场景中的各个关键音频事件分别建立GMM模型,由于事件的GMM模型包含了场景信息,避免了由于场景敏感而产生的形变对识别结果的影响。
其他文献
<正>今年,国务院多次提出企业融资难的问题,并推出相关配套措施,对"降低企业融资成本"问题达到空前关注的程度。政策的支持让一些地区和行业得到了实惠,但中小企业面临的融资
随着计算机网络技术的飞速发展,网络传输不受地域限制、方便快捷的特性极大地改善了人们的生活,利用网络来传递数据信息有着不可替代的优越性。而图像作为客观景物在人们心目
随着移动通信的快速发展、智能终端的普及和数据业务量的井喷,移动网络的负荷日益加重,但是相应的收入却没有成比例的增长。造成这种情况的一个主要原因是网络中存在大量在线
“格式塔”心理学派所提出的“整体性”、“闭合性”、“同构性”等理论主张 ,作为接受美学的心理分支及其原理 ,运用到诗歌鉴赏上 ,不仅可以从理论维度上破解中国古代诗歌的
<正>信息技术的迅速发展,深刻改变了人们的生活方式,让当今的银行必须以新的思维来审视自身,并利用创新的科技去塑造新的业务模式。10月23日,中国银行天津分行与IBM全球企业
基于传感器网络的定位和跟踪是近年来迅速兴起的一项新技术,它在安防监控、智能家居、环境保护等方面都有着广泛的应用前景。这其中,基于传感器网络的无源运动跟踪方法因其不
随着人们生活水平的日益提高,运动健身越来越受到人们的重视。由于时间和空间的限制,健身房成了越来越多城市人民的健身选择。单一功能的健身器材已不能满足人们的健身需要,基于
<正>有位哲人说过:"世界上有两件事情最难,一是把自己的思想装进别人的脑袋里,二是把别人的钱装进自己的口袋里。""个别人"的思想比较特殊,要想把领导的思想装进"个别人"的脑
期刊
关于金融监管组织架构的设置问题,研究焦点主要集中在两个方面,一是金融监管机构设置的最佳数量问题,焦点在于是采取统一监管还是分业监管;二是中央银行的架构、地位和作用,
随着人们生活质量的提高、环境保护意识的增强,迫切需要制备分子量高、溶解迅速、应用方便的聚电解质絮凝剂来处理工业污水。传统的絮凝剂在处理工业污水时具有效率低、用量