【摘 要】
:
计算机视觉领域一直吸引着研究人员不断的探究,该领域技术可应用于生产控制、智慧城市、信息提取等诸多方面,其中对自然场景中文字的检测是提取出图像中高级文字信息的关键技术之一。近年来伴随着深度学习技术的发展,大量自然场景文字检测方法被提出,如何融合这些方法的优点达到更好的检测效果,是该领域的研究热点。本文在研究多种自然场景文字检测模型的基础上,提出一种基于SSD算法的自然场景文字检测模型。该模型利用本文
论文部分内容阅读
计算机视觉领域一直吸引着研究人员不断的探究,该领域技术可应用于生产控制、智慧城市、信息提取等诸多方面,其中对自然场景中文字的检测是提取出图像中高级文字信息的关键技术之一。近年来伴随着深度学习技术的发展,大量自然场景文字检测方法被提出,如何融合这些方法的优点达到更好的检测效果,是该领域的研究热点。本文在研究多种自然场景文字检测模型的基础上,提出一种基于SSD算法的自然场景文字检测模型。该模型利用本文提出的外部交互校正方法,融合了语义分割和目标检测这两种经典文字检测框架。所提出的融合方法同时运行语义分割算法和目标检测算法分别获得文字检测结果,再将两种方法的检测结果进行相互修正。为了改进现有文字检测方法,本文首先对SSD算法进行改造,引入多层Inception结构,同时根据自然场景文字特点修改默认文字边界框的尺寸。在分别获得改进后SSD算法和语义分割算法的检测结果后,使用本文提出的边界框增强模块,逐项利用语义分割结果计算SSD检测结果的区域中值概率,并根据概率值判断该文字边界框保留状态。为了进一步使用语义分割结果,本文提出了一个语义边界框模块,该模块使用全连接条件随机场处理语义分割结果中的文字粘连与错判情况,并找出语义分割结果中的文字边界框坐标。最后使用非极大抑制模块再次融合SSD算法和语义分割检测结果,充分结合两种方法的优点得到最优的自然场景文字检测效果。为评估基于SSD算法的自然场景文字检测方法性能,本文在标准数据集ICDAR2013和Street View Text上训练和测试所提出的算法。实验结果表明,本文提出的外部交互校正方法优于传统融合方法,其中直接加入所提出的外部交互校正方法最大提升F-measure指数13.26%,加入所有改进的方法最大提升F-measure指数22.01%,最高的F-measure指数是83.68%。实验结果证明了本文提出的方法能够很好的融合两种方法的优点获得更好的自然场景文字检测结果。
其他文献
3月10日,埃塞俄比亚航空一架波音737 MAX 8飞机坠毁,机上157人全部遇难。消息一出,世界舆论一片哗然。就在几个月前,印尼狮航集团一架同样型号飞机也发生坠机事故。不到五个
想象是创新思维中最具活力的因素之一。想象能力的训练是阅读教学不可或缺的内容。在教学中,教师要根据文本内容和学生的学习能力,设计出富有层次性的想象训练,促进学生的想象力
当代中国的“以人为本”思想,其深厚根基来自于中华文明.其主要理念:珍爱生命、反对战争、重视民生,热爱自由、追求个性发展、保护弱势群体,反对奢侈腐败、提倡节俭、尊重劳动
随着近些年深度学习和计算机视觉技术的兴起,自然场景中的文字检测与识别得到了进一步的发展,其在场景识别、盲人导航、跨模态检索、自动驾驶等领域有广泛的应用前景。但是当前自然场景图像中的文字检测工作面临重重困难,诸如背景复杂、文字多样、成像不确定等问题。本文主要针对场景文字检测任务,将其划分为文字区域显著性检测和单词级别文字实例定位两个分支展开研究,最终建立双任务学习模型。本文主要研究工作如下:(1)提
我国东部老油田在注水开发后期都出现了较为严重的结垢现象。现场垢样分析和结垢趋势理论预测表明碳酸钙是主要垢型。频繁的酸化及检泵作业,易对地层、油套管和地面设施造成
<正>记者:企业社会责任项目已经成为企业的基本要素之一,大众汽车集团(中国)为什么会关注环境教育领域?殷进:大众汽车集团(中国)企业社会责任项目所关注的群体是青少年,项目
<正>通过对中风患者便秘一证的临床研究与观察,感到中医辨证施治治疗中风后便秘,对解决患者中风后二便障碍有独辟蹊径之处。便秘一证,多由大肠积热或气滞或寒凝或阴阳气血亏
金融自由化与金融有效监管是GATS框架体系在金融服务贸易领域的两大基本目标。为平衡二者之间的关系 ,GATS及其附件规定了审慎监管制度 ,但是审慎例外条款自身规定的抽象性及
随着工作和生活压力的增加及人口的老龄化,焦虑、抑郁及学习记忆障碍的发病率逐年增加。然而这些疾病的临床治疗效果不理想,因此其发病机制的研究成为当今脑科学研究的焦点之
为了减小牵引网电压损失,降低牵引网阻抗,改善供电臂末端电压,从AT供电原理和牵引网结构出发,研究牵引网结构和电压损失的关系,并运用Matlab进行运算分析,分析结果表明合理的