基于卷积神经网络的自然场景多方向文本检测算法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:dota1231
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景下的文本检测是计算机视觉领域中一个重要研究领域,作为文字识别的先前步骤,它直接影响着文字识别的准确率。目前自然场景下水平或近似水平的文本检测算法已能达到很好的效果,但多方向文本的检测问题依然还未能得到很好的解决。针对多方向文本检测问题,本文提出了两种自然场景下的多方向文本检测模型。采用卷积神经网络的方法,应用深度监督机制,并在预测文本区域时融合多个卷积阶段的特征,提高了文本检测的准确性。主要工作如下:(1)提出了一种基于回归预测的深度监督文本检测模型。该模型通过将特征图的每一个像素进行文本/非文本分类,以及回归预测该像素对应文本区域几何特征的方式来检测文本区域。检测模型中应用了深度监督机制,对不同阶段卷积层提取到的特征图上采样,根据多个上采样结果预测图像中的文本区域。在对像素进行文本/非文本分类时,通过预测像素点属于文本区域的概率以及属于非文本区域的概率,比较两个值的大小,确定像素分类结果。这种方式不需要人工设定阈值,使预测结果更精确。该文本检测模型在ICDAR2015和MSRA-TD500两个数据集上比EAST算法在F-Score分别提升了2.24%和2.28%。(2)提出了一种基于语义分割的深度监督文本检测模型。该模型通过将特征图的每一个像素进行文本/非文本分类,以及预测该像素点与周围像素点的连接关系,通过将属于同一文本的像素进行聚类来检测多方向的文本区域。该语义分割模型中也应用了深度监督机制,并在预测输出时融合了多阶段的特征,使预测更精确。用ICDAR2015中的图像训练该模型,在召回率、准确率和F-Score三项指标上均高于Pixel Link算法。这两种模型都是对自然场景下的文本区域进行检测,在训练模型时,采用了深度监督机制和融合多阶段特征的方法。一方面,深度监督机制对卷积神经网络多个阶段提取到的特征图上采样,据此预测图像中的文本区域,并计算预测损失。这种方式使卷积神经网络可根据多个阶段的预测损失调整参数,给卷积神经网络中每个卷积层提供了更多的反馈信息。另一方面,卷积神经网络中,融合多阶段特征将高卷积层包含有更多全局、抽象信息的特征图和低卷积层中包含丰富空间位置信息的特征图相融合,使预测更精确。实验结果表明,深度监督机制和融合多阶段特征的方式对两种文本检测模型的性能都有很好的提升。
其他文献
默示是人的一种意思表示,这种“意思”不是通过外在的语言模式直接表达,而是通过一定的替代动作,隐示对方沿着一定的逻辑思路去理解和接受本方的批评意思。本文通过提出作为
播种是农业生产中的重要环节,传统播种机的排种器由地轮驱动,地轮打滑现象时有发生,对排种均匀性产生较大影响。黄淮海地区施行小麦玉米轮作和免耕播种的种植模式,增加了播种
新医改背景下,为了更好地满足社会的需求,医院要加强党建工作,针对当前党建工作中存在的问题,创新党组织工作方法,提高党组织的凝聚力,发挥党建工作的重要作用,推动医院快速
随着改革开放以及信息时代的到来,我国经济水平持续提升,人们的生活和工作环境也发生了极大的变化,经济体量逐年加大。市场经济改革衍生出了许多新的企业类型,对于会计师事务
目的系统评价牙周病与结直肠癌发病风险的相关性。方法计算机检索PubMed、EMbase、WanFang Data和CNKI数据库,搜集研究牙周病与结直肠癌发病风险相关性的队列研究和病例-对照
<正>1997年11月,最高人民法院公布的《关于审理存单纠纷案件的若干规定》(以下简称《规定》),为各级法院提供了有关审判依据。但是,随着实践的深入,审判中也遇到一些疑难问题。
摇滚乐起源于美国,但由于它鲜明的个性以及丰富的文化内涵,迅速风靡于世界乐坛,并且摇滚碟片的封面设计也随着摇滚乐的强势发展而与时俱进。虽然在国内外的音乐市场上会经常
<正> 南极考察防寒服面料鉴定会,由纺织部科技司特品处处长陈重希同志主持,6月18日在上海市纺织科学研究院通过鉴定。参加鉴定会的成员有纺织部、国家南极考察委员会、上海市
随着气候变化以及环境问题日益突出,中国的绿色金融日益成为支持中国可持续发展的重要一环,我国绿色金融制度创新加快、体系建设稳步前进,但是目前各国尤其是发展中国家普遍
南宋末年,一方面是社会经济发展城市繁华,人们追求享乐的社会风气炽盛,另一方面是南宋政治腐败黑暗,但文坛并不荒凉寂寥。南宋文坛上出现一大批布衣文士,他们在国事不可为仕