面向非纯文本文档图像检索与文字检测研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:qnmdmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的飞速发展导致了数字化文档的快速增长,对文档图像检索提出了更高的要求。传统的文档图像检索方法过于依赖复杂的OCR光学字符识别和文本相似性检测,而基于内容的图像检索技术避开了传统文档图像检索技术的短板,有助于检测学术期刊论文数据库中重复投稿和重复发表的文本内容,也便于在海量资源中查询到相关的文献。传统的文字检测算法鲁棒性不强,复杂背景中文字检测算法召回率低且在多方向场景下文本检测率低。图像检索领域中,文字较少、文字信息与图表混杂的特殊图像会出现检索性能不佳、低效的问题。针对此问题,本文从基于内容的文档图像检索出发,围绕文字检测、检索系统实现两方面展开:(1)文字检测。本文利用MSER分割候选区域与SWT计算像素值相结合的方法,实现多尺度的文字检测,提升了召回率。针对该传统方法在复杂背景或长文本场景下低效的问题,提出了一种在Faster R-CNN目标检测算法上改进的文字检测算法。该算法利用文字区域的上下文强关联特点,加入LSTM网络,保留文字上下文序列之间的彼此联系,通过调整RPN锚点框大小,解决了长文本误定位、检测不全的问题。针对长文本与倾斜角度同时存在场景,提出一种基于FCN的改进文字检测算法,该算法利用FCN不同层的不同尺寸特征图融合,降低通道数、减少计算量以及矩形几何对象确定文字区域头尾,提高了多方向长文本检测的性能,降低了50%检测时间。(2)文档图像检索框架搭建。本文建立一种基于离线CNN特征提取与在线余弦相似度匹配的文档图像检索基本框架。本文框架由预处理、图像特征抽取、图像索引建立以及在线相似性匹配模块四部分组成。预处理操作后将图像分为文字区域与非文字区域两部分。本文专注于CNN特征提取融合、索引建立两方面。通过迁移学习将ImageNet2012数据集中预训练好的多个CNN模型引入本系统中,在文档图像数据集中微调fine-tuning使之适应文档图像检索任务。同时,由于卷积神经网络提取的特征是高维的,为减少检索和存储过程中的计算成本,采用PCA特征降维。再者为了提高检索精度,本文提出一种能提高学习任务精度的多模型融合策略——Rank加权融合特征策略,融合多个模型特征。最后基于视觉词汇特征BOW建立倒排索引,优化搜索的时间损耗。本文将这些方法集成到框架中,提高检索的准确率同时降低了检索时间。在20000张多种语言的文档图像数据集中,本系统的MAP提高到了85%,检索时间减少了27%。
其他文献
<正> 1991年11月1日,国务院新闻办公室发表了《中国的人权状况》白皮书。这是中国政府向世界公布的第一份关于人权的官方文件,对于推动中国人权理论和实践的发展产生了巨大作
随着世界各国对海洋资源的重视与日俱增,海洋军事和水声工程技术获得了飞速发展。在现代海战中,对目标进行精确定位及跟踪是对无人潜艇器及水下机器人等目标打击的必要前提,
本学位论文为一篇翻译实践报告,翻译原文本选自荷兰阿姆斯特丹爱思唯尔科学出版有限公司出版的期刊Population Research And Policy Review(《人口研究与政策评论》)1984年03
介绍了金属基镶嵌型固体自润滑滑动轴承在高温下的摩擦特性,分析了这种轴承的磨损机理,并提出在高温及锻压设备上应用的建议.
从乡村社会内部来看,当前中国农村正在发生巨大分化,不同地区的农村差异很大。大体可以将中国农村划分为两种类型:一种是农村人口流出、留在村庄农民仍然从事传统农业的中西
目的:泌乳素(Prolactin,简称PRL,又叫促乳素或催乳激素)由垂体前叶合成和分泌,泌乳素的分泌受下丘脑泌乳素释放抑制激素和泌乳素释放激素的影响[1]。本研究以重症肺炎患者泌
<正>2018年,全省宣传战线将更加紧密地团结在以习近平同志为核心的党中央周围,牢固树立"四个意识",坚定"四个自信",不断推动党的十九大精神和习近平新时代中国特色社会主义思
背景肺纤维化是一组慢性的进行性肺间质疾病,病理改变主要表现为弥漫性肺泡炎、肺泡单位结构紊乱和肺纤维化。肺纤维化发病机制尚不明确,预后不良,患者被确诊后,平均生存期为
人权入宪”是对社会主义本质认识深化的总结 ,是市场经济体制建设和实现全面的小康社会的需要 ,是反映当代人权保障国际化趋势和加强在国际人权事业中进行交流和合作的需要 ,
软件可靠性是软件质量评价的一个重要标准,针对传统方法存在软件可靠性评估精度低,结果不可信等缺陷,提出基于改进粒子群算法的软件可靠性评估模型。首先对当前软件可靠性评