论文部分内容阅读
当前,各行业在每一天都产生巨大的信息量,这些信息全部都以图像、视频等多媒体信息的形式被数字化,面对如此海量的视频和图像数据,人们需要从中迅速快捷地找到关键的信息,甄别信息的种类,快速找到满足自己需求特定视频或者图像,尤其在涉密机构内部,信息的类别也需要严格的甄别和划分,防止涉密的信息外泄。 本文针对大规模大容量视频数据库中文字提取方法做了深入的研究,针对视频库或者个人数据库中大量的视频文件或者图形文件,提出了一个能够快速提取视频中文字信息的方法。采用提取关键帧的方式对视频信息进行精简,在最大限度的保留视频信息的同时,删除视频信息冗余的帧,在获得关键帧之后,再采用文字检测算法进行文字的检测,本文采用基于最大稳定极值区域的方法来获得候选的文字区域,再通过聚类分析与证据积累得到最终的文字聚类,实验表明本文提出的针对视频文件的快速文字提取方法能够大大加快视频中文字检测速度,同时达到较高的文字检出率。 在关键帧提取方面,本文提出了一种基于最小视频内容单元的关键帧提取方法,通过两次镜头分割,将视频分成内容相对独立的视频单元,再从中提取关键帧。算法首先计算每一帧的颜色直方图特征矢量,根据相似度阈值对镜头进行分割;然后再根据镜头内容的变化程度将每个镜头分割成小的视频片段;最后再根据平均颜色直方特征提取关键帧。这种算法一方面可以根据镜头内视频内容变化程度调整关键帧的数量,另一方面通过划分最小视频内容单元使得关键帧具有很好的代表性,确保视频信息的完整性的同时又能够大大减小图像处理的数据量。 在文字检测方面,本文提出的基于最大稳定极值区域的文字提取方法。首先对提取到的关键帧进行最大稳定极值区域提取,获得具有极值稳定性的区域,然后根据文字特征,对所有极值区域进行多次聚类,再根据证据积累获得最终的聚类结果,通过两级级联分类器,利用文字的特征如孔洞数量,笔画宽度等将非文字区域排除,得到最终文字区域。基于最大稳定极值区域的文字提取算法具有良好的仿射不变性,对于方向或者形状发生变化的文字都能够很好的检测出来,使用证据积累的方法可以使得大大提高文字区域聚类准确度,对场景文字和人工文字的检测都有较好的效果。