论文部分内容阅读
视频对象分割是MPEG-4基于内容的编码系统中的关键技术之一,此外,它在基于内容的检索、对象识别、对象跟踪、视频电话、视频购物、视频监控、电视特技制作和交互式操作的多媒体中也有重要的应用。不仅如此,许多机器视觉问题都要借助视频对象分割技术才能完成。因此,视频对象分割技术具有重要的研究意义和应用价值,它是当前多媒体技术研究中的热点和难点之一。本论文正是针对上述问题,对视频对象分割算法问题作了创新性和探索性研究。主要内容为:1.首先分析和研究了视频对象分割所涉及的主要理论和方法。主要分析了模糊聚类理论和模糊C均值聚类方法,概率统计学中的贝叶斯(Bayes)分类器、最大后验概率模型和马尔可夫(Markov)随机场模型,形态学的膨胀、腐蚀以及开闭运算方面的理论和方法,神经网络方面的神经元模型、神经网络分类器和BP训练算法,全局运动估计中的六参数仿射运动模型、Gauss-Newton迭代法和Levenberg-Marquardet优化方法。2.在视频对象分割中,为了得到准确的视频对象轮廓,常用视频对象的边缘对所得到的对象轮廓进行校正。因此图像边缘提取对于视频对象分割非常重要。初步分析了克隆技术,建议了一种克隆算法,将它用于彩色图像边缘检测,建立了一种边缘检测模型,并联合使用边缘连接算法给出一种彩色图像边缘提取的新方法。在图像边缘提取中,阈值的选取是关键技术之一,分析了人类视觉系统特性,建立了视觉系统的数学模型,给出一种边缘检测中基于人类视觉特性的自动阈值选取方法。论文提出的边缘检测方法同其他算法相比,能得到更连续的边缘和更少的过检测点。3.分析和研究了基于时间信息或空间信息的自动视频对象分割算法的特点和优缺点,针对这两种类型的算法都不能充分地利用视频序列时间和空间信息的问题,提出一种有效的时空联合分割算法。首先输入一组视频序列帧,选择第一帧作为参考帧,求出其它各帧同参考帧的帧差,将得到的一组帧差求最大值获得初始帧差图像,利用模糊C均值聚类算法和遗传优化方法对帧差图像进行聚类分析,得到初始帧差模板。利用分层的块匹配算法进行运动矢量估计,由运动矢量获得初始运动模板,然后对帧差和运动模板求或,得到粗糙的视频对象模板。由于模板中存在许多空洞和噪声点,对模板进行填充和去噪。基于模板和运动窗技术获得对象的运动窗口,在运动窗内利用边缘提取算法获得视频对象的边缘,基于对象边缘对模板进行轮廓校正。用原始视频数据对校正后的模板赋值,得到初始视频对象。最后通过运动估计和背景注册信息完成视频对象的跟踪。仿真结果同其它相关算法的结果进行了比较,证明算法可以获得满意的分割和跟踪效果。4.研究了帧差分割算法存在的问题和背景差分割算法的优点。提出一种基于背景构建的自动视频对象分割算法。首先对多帧视频片段作统计性分析,基于帧差和运动信息提取多组关键帧,基于这些关键帧获得各组的关键背景,利用这些关键背景和背景预测方法得到视频序列的全景图像。输入视频序列帧,求出各帧同全景图像的背景差图像,利用BP神经网络分类器对背景差图像进行分类,通过分类得到各帧的对象模板,利用模板填充、局部噪声去除和局部平滑算法对模板进行后续处理,最后利用各帧的原始图像数据对模板赋值,提取出各帧视频对象。对于具有动态背景的视频序列,利用全局运动估计和补偿技术对摄像机的运动进行补偿,对补偿后的视频序列基于求多帧中值的方法得到每帧的背景。利用背景差算法进行视频对象的分割和跟踪。仿真结果和其它相关算法的分割结果进行了主客观两方面的比较,验证了本章算法的有效性。5.研究和分析了一些典型的半自动视频对象分割方法,这些算法中大部分需要过多的人工参与,大大降低了算法的速度和可操作性,不利于算法的有效执行。针对这种情况,提出一种联合背景构建和运动估计技术的半自动视频对象分割算法。首先在GUI中通过鼠标描绘出视频对象的大致边界,基于对象的边缘信息对轮廓进行校正,然后利用轮廓填充和平滑算法得到初始帧对象模板。基于模板得到初始帧视频对象和初始背景。利用背景差算法得到后续帧对象模板,利用运动估计对模板进行校正,根据相邻帧的对象模板对背景更新,最后通过背景的不断更新和背景差算法完成后续帧对象跟踪。仿真结果和其它相关算法的分割结果进行了主客观两方面的比较,验证了本章算法的有效性。