基于卷积神经网络的自然场景图像中的文字检测算法研究

来源 :湖南师范大学 | 被引量 : 0次 | 上传用户:fenglu84
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前自然场景文字检测已成为计算机视觉与模式识别、文档分析与识别等领域的重要研究课题。然而自然场景文字检测与传统的文档图像文字检测技术有很大的差别,自然场景图像中的文字具有多样性,另外背景也极为复杂,这些因素都给文字与背景的分割造成强烈的干扰。传统的自然场景文字检测方法采用手工设计特征来描述文字特征,受限于文字的多方向排列,在应对复杂的自然场景文字检测问题时缺乏鲁棒性。针对复杂自然场景文字检测问题,有效地提取文字,本文提出了两种新的基于卷积神经网络的场景文字检测方法:基于FCN的多方向自然场景文字检测方法和基于多通道边界框融合的自然场景文字检测方法。对于第一种方法,该方法首先采用深度卷积神经网络作为特征提取网络来提取图像中的文字特征,在获取的多层文字特征图基础上利用全卷积网络(Fully Convolutional Networks,FCN)进行上采样操作并逐层往上合并多层文字特征,结合语义分割的方法分割出文字候选区域,然后在分割得到的文字候选区域上直接获取文字候选检测框并进行扩大补偿处理,最后对文字候选检测框进行后处理得到最终检测结果。后一种方法针对于前者方法出现的虚警问题,提出了多通道获取和融合边界框的方法,首先特征网络部分同样采用特征提取网络来提取图像中的文字特征和结合全卷积网络融合特征层,但在获取文字边界框时,设计了边界框回归和得分图上直接获取边界框两个独立的获取文字检测框通道,利用这两者方法的优势去获取边界框,最后将两个通道的所有检测框送入融合算法中获得最终结果。本文方法在ICDAR2013,ICDAR2015等标准数据集对两种方法进行了测评,实验结果表明该两种方法相比其他一些最新方法均取得了更好的性能,基于FCN的多方向自然场景文字检测方法在多个数据集上表现很好,但存在一些虚警的情况。基于多通道边界框融合的自然场景文字检测方法相对于前者方法进行了改进,有效地抑制了虚警,在上述数据集上取得了更好的效果,进一步提高了检测的性能,这也表明了该类方法面对自然场景文字检测问题是非常有效的。
其他文献
目的评价血管内介入技术治疗Budd-Chiari综合征的长期效果。方法应用经股静脉、经颈静脉或经皮经肝途径施行下腔静脉或肝静脉的球囊扩张和(或)内支架置入术,治疗97例Budd—Chiar
<正>1963年,在农村社会主义教育运动中,毛泽东主席对浙江省诸暨市枫桥镇干部群众创造的"依靠群众、发动群众,就地化解矛盾"的"枫桥经验"作出批示,"要各地仿效,经过试点,推广
结合厦门大学本科分析化学基础课程的教学实践,对如何在本科基础课程教学中融入知识处理和学科知识体系一体化构建进行了初浅的探讨。提出了一种基于识别诱导信号激励与信号
目的通过观察视网膜静脉阻塞患者静脉血中凝血因子Ⅻ(FⅫ)的活性,研究它与视网膜静脉阻塞(RVO)是否相关。方法以随机方式收集我院门诊眼科常规检查眼底正常的正常人25例(25只
目的 探讨经股静脉、下腔静脉置管溶栓术治疗布-加综合征的护理要点及注意事项.方法 对16例经股静脉、下腔静脉置管溶栓术治疗的布-加综合征患者,严密观察病情变化,进行心理
目的对于尿毒症维持性血透患者并发症进行临床分析。方法选取永兴县人民医院2007年12月至2009年12月收治的经病理确诊的尿毒症维持性血透患者89例。结果肺部感染10例,结核感
目的:基于中医传承辅助系统软件,分析颜正华教授治疗胃脘痛的用药经验。方法:收集颜正华教授治疗胃脘痛的病案,采用关联规则apriori算法、复杂系统熵聚类等无监督数据挖掘方
采用现在研究比较多的骨髓基质干细胞的培养液图像作为研究对象,实现骨髓基质干细胞分割。首先采用灰度形态学中的高低帽算法组合应用对图像进行预处理,结构函数取半径为30的
阐述了新型U形管换热器的结构特点,介绍了该种换热器在粗甲醇系统中的应用情况。工业应用结果表明,新型U形管换热器具有结构紧凑、防振及防垢性能好、传热效率高、安全可靠等
一、问题的提出评价是教育教学的重要组成部分,在课程改革中起着导向与质量监控的作用。随着课程改革的深入,科学有效地进行评价,促进学生全面、均衡发展,是教师应研究的课题