基于统计学的视频语义分析与提取技术研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:einsun007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频分析是多媒体信息处理的重要研究内容。多媒体信息呈现爆炸式增长,海量视频数据需要高效的浏览、检索工具进行管理和访问。现有内容分析技术大多是基于非语义低层物理特征,不仅难以理解而且与人类思维中的高层语义概念相差甚远,严重影响和制约了基于内容的视频管理、检索技术进一步推广和应用。如何跨越低层特征和高层语义概念间的语义鸿沟,以语义概念来管理、访问视频数据,已成为多媒体领域颇具挑战性的研究课题。 本文基于统计学理论,提出了一个视频数据多粒度语义分析和提取的通用解决方案。在该方案中,多层次语义分析与多模式信息融合技术在同一模型中得到统一和应用。本文首先提出了一种基于统计分布的镜头渐变边界检测方法,并用一种具有时间语义语境约束的关键帧选取策略对时域内容进行表示;然后在基本视觉语义识别后,得出一种层次的多粒度视觉语义分析提取框架;随后把时频变换得到的声音频谱作为可观察特征,构建了基本声音语义识别的隐马尔可夫模型,通过语义窗口获得基本声音语义组后,按照高层逻辑定义提取音频高层语义;最后仿照人脑多感觉器官信息融合机理,将视频中多模式特征按不同类别进行划分,设计了一种基于仿生的视频语义分析两级多模式信息融合算法。 本文的创新点是: (1) 提出一种多层次/多粒度视觉语义分析的通用框架。仿照人类视觉系统的注意力机制,利用时空注意力模型选择动态和静态显著区域;将所选区域用模式分类技术进行基本视觉语义分类识别;设计了一种适合基本视觉语义分类识别的特征选择算法;得出一种定步长组合划分方法,用于对具有多峰分布属性的特殊显著区域进行基本视觉语义识别;将高层视觉语义看作是隐含状态,利用层次隐马尔可夫模型和帧切片策略建立时间语义语境约束后,对高层视觉语义进行提取。 (2) 提出一种对音频语义分析和提取的方法。采用隐马尔可夫模型(HMMs)对分析窗口内的基本声音语义进行识别;以贝叶斯决策排除语义窗口声音段中的未定义基本语义;按贝叶斯公式计算最大后验概率后,得到语义窗口内的一个基本声音语义组;采用高层语义逻辑定义来描述基本语义与高层声音语义概念间的联系,最终提取高层音频语义。 (3) 通过对人脑多种感官信息融合机理的分析,提出一种基于仿生的视频语义分析两级多模式信息融合算法。首先分别进行视频图像、音频、文字等各部分内的多模式特征融合,然后通过基于核的非线性算法把输入空间变换到高维特征空间,在特征空间中求取最优线性分类面,最终得到融合多模式信息的视频语义。
其他文献
应用蚕桑生产方式省力化技术,既能节省劳动力投入,提高生产效率,又能改善饲养环境。近年来,陇南地区在栽桑养蚕省力化发展上有所创新,但也存在技术研究应用程度低、推广面积
让计算机自动理解视频文件的内容,并利用得到的信息去推动视频管理、检索、数据挖掘等应用,是目前的一个研究热点。视频中的文本信息与视频内容紧密相关,为视频内容理解提供
数据挖掘和知识发现是从数据中获取知识的一种新技术。粗糙集作为一种处理不完全、不精确及不确定信息的有效方法,在数据挖掘和知识发现领域大有用武之地。粗糙集方法的成功应
因为实时嵌入式系统的复杂度、性能、短上市时间等要求不断提高,嵌入式软件中的动态实时行为也越来越复杂,而这些动态实时行为常常由实时操作系统(Real-Time Operating Syste
威德尔海豹体长3米左右,体重300多千克,雌性略大于雄性.它背部呈黑色,其他部分呈浅灰色,体侧有白色斑点,其数量约75万只.它在冰上繁殖,每胎产一仔,由于乳汁脂肪含量高,幼仔显
技工学校档案管理工作是一项极具政治性、服务性和专业性的工作,要做好这份工作,档案管理员必须具备坚定的政治素质、良好的职业道德、较高的业务水平、博学求进的精神和较强的
目的探讨反复人工授精失败后行体外受精-胚胎移植的临床结局。方法对53周期反复人工授精失败后行体外受精-胚胎移植(观察组)进行回顾性分析,与同期的155周期双侧输卵管阻塞患
以下六种人不宜吃月饼。糖尿病人,因月饼含糖量高,吃得过多,可使血糖急剧升高,使病情加重。
教师在数学课堂教学中发挥"育人"功能,这是学校教学与培训机构教学最本质的区别.教师根据教学经验以及对学生的了解,智慧地设计课堂教学,让学生掌握学科基础知识,同时养成良