基于内容的视频检索中的音频处理

来源 :复旦大学 | 被引量 : 0次 | 上传用户:binhuchen007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着媒体数字化技术和网络技术的发展,人们的日常生活中所接触到的数字视频越来越多。相应的,对数字视频进行分析和查找的需求也越来越迫切。因此,基于内容的视频处理和检索已成为近年来多媒体处理、信息检索以及数据管理研究领域的重要课题之一。视频是由图像和音频组成的一个有机整体。经过近些年的研究,越来越多的研究者发现从图像中提取和分析视频的语义是比较困难的。与此同时,音频流所包含的语义信息要比图像流丰富,而且从音频流中提取语义信息也更加直观方便。因此,音频信息的提取和分析对基于内容的视频处理和检索具有重要的意义。结合视频本身的特点,本文在传统音频处理方法的基础上,讨论了视频处理和检索系统中,提取、分析和利用音频信息的算法和框架。其中,主要讨论了三种音频处理技术:音频类型识别、说话人信息分析和特殊音频事件检测。视频中包含丰富的音频类型,将视频根据音频的类别进行分割是在视频中应用音频信息的基础步骤。本文分析了不同音频类型的产生机制以及它们在不同音频特征上的特点,提出了一种基于最大熵模型的音频类型识别算法。该算法可以自动地挑选对分类比较有效的特征。同时,在复杂的音频环境下,该算法的性能明显优于 k 近邻、GMM 和 SVM 等常用音频类型识别算法。在现实的应用中,人(特别是说话人)经常是视频处理和检索的主要对象。本文归纳整理了视频处理和检索中说话人信息分析的框架,提出了一个基于混合高斯模型的近似 KL 距离的视频说话人信息分析算法。该算法能够有效地对视频中出现的说话人进行分割和聚类。视频中的特殊音频往往伴随着视频中某些特殊事件的发生而出现。对特殊音频事件的检测对于检索视频中的特殊事件具有重要意义。本文分别提出了基于基音频率的欢呼声检测算法和基于频谱能量分布的哨声检测算法。同时,还详细讨论了一个基于事件的体育视频索引算法。该算法利用视频关联分析融合了音频特征和其他视频特征,可以检测出体育视频中出现的事件,最终建立基于事件的体育视频索引结构。除了上述三个主要应用外,本文还对复旦大学参加 TRECVID 评测中用到的其他音频处理方法进行了讨论。实验结果表明,本文提到的部分算法的性能接近或达到了国际先进水平。
其他文献
本文从不同角度对现有图像数字水印算法的性能进行了比较。首先,本文针对目前已有算法的一些不足,提出了基于块处理与象素调制相结合的空频域联合特征水印算法,基于奇异值分
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
文物是人类在历史发展过程中遗留下来的具有历史、艺术、科学价值的遗物和遗迹。但是,绝大部分文物出土时存在不同程度地人为和自然的损坏。文物修复是考古和文物研究中一项
结合通信行业对人才的需求,提出应用型人才的培养方案,遵循“分层教学、人人成才”的教育教学理念,按照不同的出口方向设计课程,在培养方案实施过程中,注重与企业交流互动,进一步改
在总结城市交通隧道常用的消防给水系统基础上,结合工程实例,重点阐述临时高压消防给水系统中高位消防水箱、消防水泵、稳压泵及气压水罐等消防供水设施的设计参数及相关计算
目的探讨Anchor Attachment蛋白(AAP)的表达与结直肠癌浸润和转移的关系及临床意义。方法采用免疫组织化学方法检测83例结直肠癌患者的正常肠黏膜、癌原发灶、转移淋巴结及肝
文章根据河南省淅川县的气候、土壤条件,结合生产实际,从丹参种植的选地、整地、施肥、选种、育苗、移栽等生产环节进行了技术总结,以期为广大种植户提供技术参考。
医疗损害赔偿纠纷是具有较强专业性的侵权纠纷,其判断是非的核心是分清损害结果的致害原因及作用力大小,因此,引入鉴定机制来分析原因及划定责任就是解决纠纷的关键.但是当患
提出了一种自动化提取情感依存句法关系的分析方法。在待分析语句依存句法树的基础上,结合中文语法特点,定义了分枝、嫁接、剪枝和枝解四种基本操作,压缩依存树的特征空间的