基于深度学习的场景文本检测算法与评估标准研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:jiachengpu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着文档分析与识别国际赛事(International Conference on Document Analysis and Recognition,ICDAR)的举行和模式识别技术的发展,场景文本图像检测和识别技术成为当今计算机视觉领域的研究热点。场景文本图像是指在自然场景中通过终端设备采集的图像。准确定位出图像中的文本区域并进行语义分析在图像检索和智能驾驶等领域有重要的应用价值。现在关于场景文本检测的算法比较多,但算法的实际检测效果离完美还有较远的距离。算法检测效果较差主要受以下几个因素影响:(1)自然场景中物体边缘纹理与文本纹理相似,(2)自然场景图像中文本的颜色、大小、方向,长宽比都是不确定的,(3)场景图像受光照的影响,(4)场景图像的分辨率不同,(5)场景图像中存在多语言混合文本。截至目前,大部分场景文本检测算法都是针对英文数据集的检测,针对中文数据集和多语言数据集的检测较少。根据以上分析可知,场景文本检测仍是一项具有挑战性的研究工作,因此本文针对场景文字的检测任务做了以下三个工作:1.首先使用场景文本检测算法在中英文数据集中进行实验,在本次实验中我们使用的场景文本检测算法有EAST,Text Boxes++,Psenet和Craft。使用的英文数据集有ICDAR 2013,ICDAR 2015。中文数据集有RCTW和MTWI。然后再基于上述算法对以上数据集中的检测结果分别进行数据分析和图像实例分析,找出上述场景文本检测算法和场景文本检测评估标准存在的不足,为场景文本检测算法和场景文本检测评估标准的改良提供数据支撑。2.通过分析ICDAR 2015 IOU评估标准在Craft算法在不同场景文本数据集上的评估结果发现,场景文本评估标准ICDAR 2015 IOU通过使用固定阈值来判断检测区域是否检测成功,该方法在评估得分计算上存在误差。并且ICDAR 2015 IOU只计算一对一的检测得分。基于上述问题,我们提出一个基于字符的场景文本检测评估标准(TightnessCalculation Text,TCT):首先利用图像中的文本行字符信息将文本区域进行切割,然后根据检测区域与标注区域的相交比例,通过事先定义好的得分规则进行文本行得分计算。其主要遵循以下两条规则:(1)同一个文本区域最多得分1分;(2)根据检测区域相交的比例计算单字符得分。由于TCT评估标准对弯曲文本和文字分布不均匀文本评估效果较差,我们又基于TCT提出基于单字符标注的评估标准(One detection text Calculation to Many ground true text,cTCT)。通过对比实验分析,TCT和cTCT在场景文本检测数据集中的得分计算都比较合理。3.针对上述实验中发现的场景文本检测算法Craft的不足之处进行分析并加以改进,提出拉普拉斯融合双分支算法网络(Laplacian connected two branch network,LCT)。首先使用高斯拉普拉斯算法对场景文本图像进行边缘检测,然后将其与原图像进行通道融合并输入到特征提取网络中,利用文本行的特征和文本行中字符区域的特征对图像中文本行区域进行分类预测,该算法和现有方法的不同是,该方法能够分别基于文本行特征和字符特征进行文本区域预测。将上述算法检测得到的检测结果与原算法的检测结果进行比较,改进后的算法在中文数据集和英文数据集的检测精度均有所提升。
其他文献
在场景图像中对文字的位置进行检测,这是计算机视觉技术领域内的一个重要研究方向,在无人驾驶、票据分析、车牌识别、盲人导航、无人超市等各种应用场景里都有着十分重要的研究意义。与传统的光学字符识别(Optical Character Recognition,OCR)任务相比,在场景图像中的文字通常都有着颜色多样、字体大小不统一、背景信息复杂、文字表面遮挡、图像拍摄模糊、分辨率低等诸多影响因素,这些影响因
学位
近年来,随着中国经济的快速发展和城市化进程的不断加快,大气污染对空气质量和气候变化的影响日益显著,已成为关系到国计民生的重大问题。二氧化氮(NO2)作为传统光化学烟雾的代表性污染物和重要的痕量气体,在对流层大气化学中起着重要的作用。它不仅会形成雾霾、酸雨等环境问题,而且也会对人体健康产生很大危害。因此,本文基于卫星遥感和目标检测技术,以河南省区域为例,对NO2污染物时空分布特征及其影响因素进行研究
学位
行人重识别(Person re-identification)是指在非重叠监控视域下,对当前拍摄到的目标行人在其他视角域下进行再识别的技术。这项技术目前在刑侦破案等方面已经得到广泛应用,特别是在防范打击国际恐怖活动的任务中,能够从海量的图像或视频库中迅速匹配锁定犯罪嫌疑人,大大提升了公安部门的破案效率。然而,在真实场景应用中,不同监控设备所拍摄到的行人图像存在着分辨率、拍摄角度、光照强度的差异以及
学位
移动边缘计算是一种新型的无线网络架构,它将云计算能力“下沉”到距离用户很近的网络边缘,为用户提供低时延高可靠的服务。移动边缘计算中的任务迁移策略可将用户任务迁移到其附近的服务器上,利用服务器充足的计算资源来完成任务,是当前研究热点。目前现有的任务迁移策略研究大部分面向准静态环境,没有考虑到系统资源不可预知的动态变化。并且很多研究假设服务器资源充足且同构(即每台服务器上的各种资源相同)。这些迁移策略
学位
合成孔径雷达(Synthetic Aperture Radar,SAR)系统采用主动式微波遥感技术,可以不受光照与云雨雾等因素地影响,能够全天时、全天候对地成像,获取连续时间序列SAR图像。SAR图像分类作为一项重要的基础研究,其分类精度直接影响后续遥感应用的效果与质量。由于SAR系统侧视成像的特点,当地表为山脉等具有高程起伏的复杂地形时,其SAR图像中会相应出现叠掩、阴影、迎坡收缩和背坡拉伸等几
学位
随着带有全球卫星导航系统(Global Navigation Satellite System,GNSS)功能的移动设备快速普及,基于位置的社交网络(Location-based Social Network,LBSN)逐步成为日常生活中必不可少的移动应用。在这类应用中,地理位置推荐服务是其中的一个核心功能与研究热点。地理位置推荐是基于用户的历史签到数据和社交信息,发掘兴趣偏好,预测可能访问的地理
学位
小样本图像识别是深度学习领域中重要且有难度的课题。基于深度学习的图像识别在数据密集型的应用上卓有成效,但当数据集极小时,它常常受到阻碍。在小样本图像识别任务中,如何在图像特征表达能力和过拟合问题上进行权衡,是一个重要挑战。因为使用较深的卷积神经网络,虽然能够提升图像特征表达,但是容易出现过拟合问题。而为了缓解过拟合问题,通常选择结构较为简单的网络,但却不足以对图像中所蕴含的信息进行有效提取。另一个
学位
<正>“数缺形时少直觉,形少数时难入微。”著名数学家华罗庚先生的这一观点生动形象、深刻地指明了“数形结合”思想的价值,也揭示了数形结合思想的本质。教学中有效渗透这一思想尤为重要。所以,也有研究者结合“数”、“形”的本质的内涵探讨了小学数学中渗透数形结合思想的课堂教学把握。如教△+7=13,则△=?就算不上是渗透数形结合思想,属于符号思想。像利用图形讨论异分母分数加减法计算方法或利用图像讨论两个变量
期刊
随着物联网移动终端的大规模推广,移动终端供能问题成为无线通信系统的研究热点。解决供能问题的能量收集技术引起了科研工作者的极大关注,传统能量收集技术从自然能源中收集能量,可以有效解决供能问题。但由于自然能源的间歇性和不可预知性等特点,该技术易受自然环境变化因素影响,从而引发供能不稳定问题。新颖的无线携能(Simultaneous Wireless Information Power Transfer
学位
目标识别技术研究是计算机视觉研究领域中重要的研究方向之一,该技术也已逐渐成为计算机应用领域中提供准确目标类别信息的一项重要技术。当前,很多目标识别技术均是基于深度学习框架实现的,但是在实际应用中,成像探测器获取原始图像数据并作为深度学习框架的输入,进而实现目标识别的方式并非高效,数据获取并识别的过程包含了大量的冗余信息,降低了识别效率,虽然池化层等网络层次的出现实现了深度学习框架数据量的降级,但与
学位