论文部分内容阅读
文本在人机交互中扮演着重要的角色。图片中的文本所包含的丰富而精确的信息在基于视觉的设备中应用非常广泛,能够辅助设备获得更精确的物体和周边环境信息。随着智能机器人、无人驾驶、医疗诊断的飞速发展,文本的检测与识别已经成为定位和理解物体信息的重要途径。特别是近年来,各界学者开始关注图像中遮挡,尺度变化,模糊等形式文本的研究,以解决实际问题。传统的文档图像中的文本检测与识别已经日渐完善,但是文档中的文本通常是统一的颜色,水平排列。而在自然场景中,文本的文字大小是随意的,在图像中的排布方式也是未知,同时由于拍摄设备的角度不同、周围环境光照不足等因素,很容易出现文本与图像具有低的对比度而与背景融为一体的现象,因此自然场景中的文本检测与识别仍然存在着很多的挑战。文本检测作为文本识别系统的第一步,目的在于将图像中的文本区域以边框的形式进行有效的定位,其准确性对于提高后续识别系统的精度至关重要。因此,本文围绕自然场景中的文本检测开展了如下的工作:(1)在传统机器学习领域,提出了基于改进MSER的文本检测算法。算法首先通过限制对比度直方图均衡(CLAHE)算法结合最大稳定极值区域(MSER)快速定位出文本候选区域,之后根据图像中文本区别于非文本的一些特征来滤除非文本区域,同时结合笔画宽度恢复被误删的文本部分,得到最终的文本候选区域。随后,再对图像中的候选区域部分提取方向梯度直方图(HOG)特征,利用训练后的支持向量机(SVM)文本二分类器完成对非文本区域的二次过滤,从而检测到自然场景中低对比度和模糊文本。(2)在深度学习领域,针对于现有的文本检测方法存在着对于模糊、尺度变化剧烈和受到建筑物遮挡等问题,提出了一种基于改进的Faster RCNN自然场景文本检测方法。该方法用深度残差网络(Inception Resnet)作为文本特征提取网络对图像特征进行深度提取,然后对提取的文本特征上运用更适合小型文本的区域提案网络(Region Proposal Network,RPN)产生候选文本区域边界框,再将精调后的特征与候选文本区域边界框进行融合,最后采用Fast RCNN文本分类网络进行分类求解。该方法解决了图像中文本大小不一或者文本受遮挡的问题,与原始的Faster RCNN相比,本研究中提出的多级Inception ResNet网络模型可以提取更深层次的文本特征。提取的特征图由Reduction B,Inception resnet C和Avg Pool进一步稀疏表示,然后与文本特征映射下层网络获得的文本区域融合,以获取精确的文本区域。通过算法的设计、研究与实验,我们所提出的文本检测算法与之前的算法相比分别在算法的鲁棒性方面和检测小型文本方面实现了改进,同时在测试中也取得了比之前的算法更好的效果。