基于多模态综合的视频场景分析研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:mulu911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文在系统分析了现有的视频检索技术的基础上,提出了在场景层次上综合多模态信息来分析视频内容的方法.对多模态、场景的概念、多模态综合的理论和意义以及如何综合多模态来分割、检索和浏览场景进行了详尽的分析和研究.该文首先给出了多模态的概念,阐述了多模态综合的理论基础以及综合多模态对视频内容分析的意义;对视频场景进行了定义,介绍了场景的构造规则以及在场景层次上对视频内容进行分析的意义;分析了视频内容的结构,并在此结构基础上,结合视频数据内容的层次特点,建立了基于层次的视频数据模型.该模型引入了七个定义,较好地反映了视频数据的时空特性,并支持视频解释和数据独立性.接着,该文对目前可以利用的音频和视觉特征给予了较为全面的介绍,提出了基于DirectShow系统从视频流中实时提取音视特征的方法.音视频流的实时分析和处理是许多多媒体技术的研究和开发者都会遇到的复杂问题.该文最后研究了音视频流实时分析和处理的实现问题.简要介绍了基于COM架构的DirectShow组件实现视频处理的方法.在基于层次的视频数据模型的基础上,提出了一种在COM架构上的综合多模态的视频场景实时分析框架,并用此框架实现了该文提出的视频场景分割和检索实验系统(VSSRS-1,Video Scene Segmentation and Retrieval System).
其他文献
静态分析是软件白盒测试、逆向工程以及再工程等CASE工具的核心基础支撑技术.长期以来,由于C++语言语法的高度复杂性,导致静态分析技术一直是C++语言的CASE工具开发的瓶颈.该
时态数据库是日前数据库领域研究的热点,其具体实现技术以及在现实生活中的应用都具有非常重要的现实意义.目前基于有效时间间隔的时态数据表示模型已经比较成熟,而且被应用
本课题所研究的液压试验台计算机测控系统是对液压系统的高速信号进行捕捉并显示波形曲线的系统.课题针对液压高速信号的采集时机和技术进行了一些研究,开发了一个具有开放结
随着互联网的日益发展,现在使用的IPv4协议在地址数量、服务质量(QoS)和安全性等多方面已经不能够满足人们的要求.在这种背景下,IETF提出并制订了IPv6协议规范.在IPv4向IPv6
在信息时代,如何保证信息系统及时可靠地提供服务是信息主管部门必须面对的重大课题.随着计算机和网络技术的迅速发展,构建高可用系统,提供稳定、可靠、有效、持续运行的计算
复制机制被大量地应用到Internet中用来提高对Web文档的访问效率,并增强Web文档有效性、降低网络总流量、保持系统负载均衡的功能。大规模使用复制技术必须考虑两个关键问题:
宽带多业务接入网络可以在一个平台上提供多种类型的服务,相比单独建立多个专用业务类型的接入网络具有运营管理维护成本更低,网络铺设费用更低,灵活性更好和网络利用率更高的优
唇读是用计算机再现聋人通过唇动破解语言规律读懂语言的过程,这是一项非常具有挑战性的科学发现,同时也可以用作语音识别的一种辅助手段,以提高自动语音识别抗噪声能力.唇读
在数据网格中,为了在在范围内共享巨大数量的数据资源,提高系统的运行效率,提高数据访问的可靠性,优化数据访问的性能,必然要涉及大量数据文件的复制、传输.既然存在复制,那
Web服务作为新一代分布式技术,它的松散耦合性、跨平台、跨语言、良好的互操作特性已为许多专家拥护并得到广大 IT公司和组织的支持。Web服务技术的应用是全球网络化高速发展