论文部分内容阅读
互联网技术的飞速发展导致了数字化文档的快速增长,对文档图像检索提出了更高的要求。传统的文档图像检索方法过于依赖复杂的OCR光学字符识别和文本相似性检测,而基于内容的图像检索技术避开了传统文档图像检索技术的短板,有助于检测学术期刊论文数据库中重复投稿和重复发表的文本内容,也便于在海量资源中查询到相关的文献。传统的文字检测算法鲁棒性不强,复杂背景中文字检测算法召回率低且在多方向场景下文本检测率低。图像检索领域中,文字较少、文字信息与图表混杂的特殊图像会出现检索性能不佳、低效的问题。针对此问题,本文从基于内容的文档图像检索出发,围绕文字检测、检索系统实现两方面展开:(1)文字检测。本文利用MSER分割候选区域与SWT计算像素值相结合的方法,实现多尺度的文字检测,提升了召回率。针对该传统方法在复杂背景或长文本场景下低效的问题,提出了一种在Faster R-CNN目标检测算法上改进的文字检测算法。该算法利用文字区域的上下文强关联特点,加入LSTM网络,保留文字上下文序列之间的彼此联系,通过调整RPN锚点框大小,解决了长文本误定位、检测不全的问题。针对长文本与倾斜角度同时存在场景,提出一种基于FCN的改进文字检测算法,该算法利用FCN不同层的不同尺寸特征图融合,降低通道数、减少计算量以及矩形几何对象确定文字区域头尾,提高了多方向长文本检测的性能,降低了50%检测时间。(2)文档图像检索框架搭建。本文建立一种基于离线CNN特征提取与在线余弦相似度匹配的文档图像检索基本框架。本文框架由预处理、图像特征抽取、图像索引建立以及在线相似性匹配模块四部分组成。预处理操作后将图像分为文字区域与非文字区域两部分。本文专注于CNN特征提取融合、索引建立两方面。通过迁移学习将ImageNet2012数据集中预训练好的多个CNN模型引入本系统中,在文档图像数据集中微调fine-tuning使之适应文档图像检索任务。同时,由于卷积神经网络提取的特征是高维的,为减少检索和存储过程中的计算成本,采用PCA特征降维。再者为了提高检索精度,本文提出一种能提高学习任务精度的多模型融合策略——Rank加权融合特征策略,融合多个模型特征。最后基于视觉词汇特征BOW建立倒排索引,优化搜索的时间损耗。本文将这些方法集成到框架中,提高检索的准确率同时降低了检索时间。在20000张多种语言的文档图像数据集中,本系统的MAP提高到了85%,检索时间减少了27%。