论文部分内容阅读
随着多媒体技术的发展,数字图像(视频)在各个领域的应用越来越广泛,能够从图像(视频)中检索到所需的信息成为人们迫切的要求。在图像(视频)中,字符信息在一定程度上反映了本幅图像(视频)的部分内容,因此自动定位图像中的字符区域,并抽取这些文字信息,是其关键步骤。 文献中提出图像中字符边缘体现出的纹理具有方向性,即水平、垂直、斜向走向。首先提取字符的横向、竖向纹理的方向信息,然后根据各自的阈值把候选字符区标识出来,用形态滤波的方法消除噪声,最后用斜向纹理的平均斜向能量判断是否是字符区。文献中将此模型用在以DCT为编码基础压缩数据上,效果较好。本文将其算法中的能量定义利用块间的信息重新定义,并且采用自适应动态阈值对原算法进行改进。对比实验结果表明,改进的方法对图像字符定位比原方法准确率更高,漏检情况有一定程度的降低,取得了较好的效果。同时本文将此模型推广到小波分析中来定位字符。分析了各个方向边缘经小波变换后的特点,用具有良好时频局部和变尺度特征的小波分析方法提取出不同空间分辨率,水平和垂直及对角线方向的边缘子图像,把满足水平和垂直方向能量阈值区域进行合并,经过去噪后,用对角线方向能量阈值即高高频能量作为判断标准,确定是否是真正的字符区。实验中正确检测率达到93.7%,较低的漏检率6.3%,错误检测率百分之十几。 本模型可用于空间域中图像字符定位也适用于以小波变换或以DCT技术为编码基础的压缩数据。通过大量的实验验证这种改进模型具有较高的准确率。