论文部分内容阅读
随着智能手机等便携式拍摄设备的不断普及,图像正越来越多的被人们当作信息载体的首选,计算机视觉技术的不断革新,使得无人驾驶、人机交互、智能安防的等新兴人工智能应用场景也不断增加。海量图片信息时代的到来和不断增加的人工智能应用场景,如何让计算机准确的理解图像信息正受到人们越来越多的关注。而文本元素因为其丰富的语义信息,对自然场景图像中文本的检测识别可以帮助计算机更准确的理解图像信息。另一方面,传统的文本识别技术仅适用于各类字符大小规范、字体统一以及文本间隔固定的印刷体文档识别,如各类证件、票据、文档等。而对于存在于自然场景中的文本信息,由于背景复杂、字体字号多变以及噪声多样等原因,使得传统的文本识别方式难以进行有效的精准识别。同时,带有文本信息的图像数据量的不断扩大,对图像数据的分类、编码、存储、检索和维护等过程也提出了更高的要求,特别是图像数据的检索,针对图像理解中的文本元素和证件、车牌、票据等文本载体中的文本内容,构建一个通过检索文本信息从海量的图像数据中得到包含文本信息的目标图像的检索应用也是一个新兴的应用方向。随着近年来深度学习技术的不断发展,区别于依靠人工经验提取的特征,深度学习通过学习海量训练数据自发获取数据特征的方式,尤其适合于物体识别和语音识别等模式识别场景中。本文基于CTPN算法实现图像中文本区域的检测,并通过DenseNet网络与CTC算法实现了文本区域上文本信息的识别,最后通过结合文本识别结果和对图像Exif信息的读写实现了图像检索应用。本文主要研究内容概括如下:(1)本文实现了基于CTPN的文本检测模型,CTPN算法在传统目标检测算法的基础上结合文本对象自身的特点,利用垂直锚点机制,先检测出一个个包含文本的小矩形框,并通过合并矩形框的方式实现了对文本行的检测。考虑到文本行中连续的上下文信息对于检测具有很好的参考性,CTPN还通过加入BLSTM提取上下文特征来提升检测效果。为验证算法泛化性能,通过在100张人工标注的图像上进行测试,实验结果表明在评估标准为DetEval的情况下平均性能可以达到87.6%,能很好的实现自然场景下文本检测功能。(2)本文实现了基于DenseNet+CTC的文本识别模型,DenseNet网络通过将所有层的特征图都进行互相连接,从而来保证能够获得网络层之间的最大信息,DenseNet使用了更窄的网络结构和更少的参数,拼接的连接方式也使得特征和梯度的传递更加有效。通过DenseNet网络得到特征后,再利用CTC损失函数解决输入输出非对齐情况下的网络训练问题。本文通过随机选取中文语料库中的连续字符,经过一系列数据增强得到364万张图片数据,并按照99:1的比例划分训练集和测试集,最后通过在人工标注数据上的测试结果进一步优化文本识别模型,实验结果表明,优化后的模型在文本相似度阈值设定为0.8的情况下,在人工标注数据上准确率能达到70.6%。(3)本文实现了基于文本识别的图像检索应用,该应用基于Flask Web开发微框架,利用图像Exif信息的易操作性,首先通过文本识别模型得到图像中文本信息,然后借助Piexif扩展包对Exif信息的读写支持,将识别结果写入图像的Exif信息中。Web后台通过接受输入的检索词,读取图像Exif信息并和检索词进行匹配,获取目标图像并展现在Web前端页面中,从而较好实现了通过文本检索出目标图像的图像检索应用。