论文部分内容阅读
如今随着多媒体技术的发展,视频已成为人们获取信息的渠道。面对海量的视频数据库,如何快速有效地进行视频检索已成为研究热点。视频中的文字信息为视频检索提供了可能。 维吾尔文字是基于阿拉伯字母的文字。由于维吾尔文和阿拉伯文本自身的特点,大多数已发表过的算法不能直接应用到视频中的维吾尔文和阿拉伯文。尽管在全球范围内的广泛应用,到目前为止,有关阿拉伯文和维吾尔文的视频文字定位和提取的研究非常少。本文在研究和总结目前的有关视频文字定位的算法基础上,结合维吾尔文特有的特点,提出了一种定位和提取视频中维吾尔文字的方法。 通常文本提取包含文本探测定位和文本分割。本文首先提出了一种基于笔画滤波的字幕文本定位方法,并给出详细的原理解释与实现过程。本文方案构成如下:首先对视频帧进行笔画滤波且对笔画滤波响应图进行非线性变换,然后利用维吾尔文在基线上横笔画居多的特征,通过水平投影找到基线位置,对基线上下方向进行扩展,确定上,下文本线。然后对通过垂直投影确定最的文本框,最后对用启发式规则对文本框进行验证。然后使用连通区域分析来修正文本的外接框,最后使用支持向量机(Support Vector Machine,SVM)对候选文本块进行筛选,排除在前一步骤中被误检为文本的非文本块。 对于定位后文本块的分割,考虑到维吾尔文的特性,本文在已有方法的基础上建立了文本颜色信息和纹理信息的联合概率模型。本文利用同一个文本块中其笔画宽度比较一致的特点来提取建模样本。从而使得训练的模型比较精确,因此本文建立的模型可以很好的将文字和背景分割开来。