基于深度学习的场景文本检测方法研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:jj978163com
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,人们正处于信息化的时代,研究学者们越来越热衷于从图像中获取所需的信息,而图像上的文本可以帮助人们更好的理解图像信息。因此,提取图像中的文本信息成为了近年来科研界的一个热门的研究任务,而自然场景下拍摄的图像非常复杂多变,给检测任务带来了极大的挑战。传统的机器学习方法已经不能满足任务的需求,得益于深度学习技术的推广和应用,给场景文本检测任务带来了新的机遇和可能性,广大研究学者纷纷将深度学习技术运用于检测任务中,提出了一系列经典的算法。基于此,本论文主要研究的是基于深度学习的场景文本检测方法,共提出了三种不同的场景文本检测方法,分别是:
  (1)面向难例挖掘的分层级场景文本检测方法。之前很多基于深度学习的方法在进行文本特征的提取时,往往是多层次提取后再在最后一层特征图上进行预测和分类,这样不能充分利用中间层的特征信息。与此同时,网络训练时不注重困难样本和简单样本的区分,导致难样本训练不充分,检测精度不高。针对这些问题,本文提出了一种面向难例挖掘的分层级场景文本检测方法,即HST-DHE(A Hierarchical Scene Text Detector concerning Hard Examples)方法。该方法以全卷积神经网络为基本架构,逐像素预测文本区域,消除预定义锚框,利用特征金字塔分级预测,同时融入难例挖掘的思想,重新设计聚焦困难样本的损失函数,使网络更关注难分样本,进一步提高文字检测的精度。
  (2)基于生成对抗网络和像素波动的场景文本检测方法。针对基于分割的方法往往不能产生令人满意的分割结果,提出了一种基于生成对抗网络和像素波动的场景文本检测方法,即GAPF(Curve Text Detection based on Generative Adversarial Networks and Pixel Fluctuations)方法。该方法将生成对抗网络引入文本检测领域,以生成对抗网络为主要框架,生成精准的文本分割结果,同时引入像素波动相关概念,将图像的像素波动信息作为一个条件输入到生成器网络中,增强平移和旋转不变的特征,最后,设计新的后处理算法,由分割结果生成文本的边界。
  (3)基于显著图的弱监督场景文本检测方法。针对全监督方法对数据的标注非常耗时又成本昂贵的问题,提出了一种基于显著图的弱监督场景文本检测方法,即WSSM(Scene Text Detection based on Weakly Supervised and Saliency Map)方法。该方法受显著性目标检测的启发,在场景图像上利用分割网络生成文本区域的类别显著图,然后在类别显著图的基础上,对文本区域进行边界框的标注,最后将带有此标注的图像输入到网络中进行训练,以此代替人工标注。
其他文献
睡眠是一种复杂的生理活动过程,充足的睡眠时间和高质量的睡眠质量是人体生理健康和心理健康的必要条件。睡眠障碍严重影响人类健康和生活,将睡眠阶段准确的分类是检测和治疗睡眠障碍的关键,睡眠阶段分类也称之为睡眠分期。在睡眠分期领域,主流的深度学习方法在同一层次上仅仅使用了某种单一的关系归纳偏置,这会使得深度学习方法的特征提取方式不够完备并导致该方法的性能受到限制。本文使用平移不变性、时间不变性和分层处理等
学位
开发一种治疗疾病的新药是一种非常漫长和昂贵的过程,为已知药物确定新的疾病适应症,即药物重定位,有助于减少药物的研发成本。目前,大多预测药物相关疾病的方法都是综合利用与药物和疾病相关的数据。然而这些方法虽然聚焦在整合多种药物特征,并没有考虑到各种特征间的多样性。此外这些方法尽管利用了药物和疾病相关的各种数据,但是它们都是根据浅层模型提出的,很难挖掘出药物和疾病之间复杂的关联关系。这些不足将在一定程度
随着社会的进步,移动互联网已经涉及到各行各业,移动电商和基于位置的社交网络(LBSN,Location-Based Social Networks)也得到了迅猛的发展,如淘宝,京东,Facebook,Twitter,Foursquare,Gowalla,Yelp等。与此同时,诸如信息爆炸问题也日益受到人们的关注,如何从逐日爆炸性增长的互联网海量数据中提取出对用户有实际意义的信息,同时尽可能地过滤不
学位
由于户外环境的复杂多变,如雨雾天气、低光照、噪声等,图像采集设备收集到的图像常会受到不同程度的损坏。图像的退化不仅会降低可视化效果,而且会影响下游的目标识别等高级视觉任务。低质量图像恢复旨在从退化图像中恢复高质量图像信号,传统的图像恢复方法主要利用局部或非局部的图像特征,缺乏深层次的语义信息,限制了在复杂场景中的特征表示能力。近年来,基于卷积神经网络(CNN)的方法能够同时提取浅层和深层特征,在图
电子病历(Electronic Medical Record,EMR)是使用计算机记录病人治疗情况的一种形式,它记录了病人所有的诊断治疗信息,比如现病史、既往史等,这些信息具有极高的医学价值。随着人工智能、自然语言处理技术的成熟落地和成功应用,各个领域开始借助这些技术在不断的更新和进步,如,在医学领域,使用EMR辅助医生决策,提高疾病诊断性能已经成为了至关重要的任务。但是,之前的工作仅仅使用卷积神
学位
随着计算机技术的发展,以深度学习为代表的方法为医疗图像的研究与发展开拓了新的方向。由于视网膜血管与糖尿病、高血压、心脑血管等疾病的重要联系,研究人员对自动分割视网膜血管这一医学任务也给予重要关注。在目前大多数基于深度学习的视网膜血管分割方法中,以编码-解码结构的分割模型融合了视网膜图像的全局和局部信息,在分割性能上取得了突破性的发展。但由于视网膜血管复杂的形态变化、病变区域的影响、毛细血管的分支多
学位
在过去几年里,尽管立场检测研究取得了很大的进展,但是现有的立场检测工作大多只关注训练集和测试集分布一致的情况,却忽略了社交平台话题的特点,即较快的更新速度。处理新兴的陌生话题领域也因此变得极为重要。为此,本文使用了深度神经网络作为基础模型来探索立场检测任务处理未知话题的方法。具体地,本文将从以下三个方面展开探索:(1)基于领域泛化的未知目标立场检测方法:本文将未知目标立场检测任务看作分类任务,首先
学位
近年来计算机断层扫描技术(CT)被广泛用于临床诊断,由于CT会产生较高的辐射,危害人体健康,医学界通常采用低剂量CT扫描技术(LDCT)来获取CT图像。尽管LDCT能够有效降低辐射量,但是LDCT图像容易引入更多噪声和伪影,最终可能影响放射科医生的诊断。由于CT原始数据难以获取,大量研究聚焦于直接对CT图像进行后处理去噪。现有CT图像去噪算法主要针对特定剂量的CT图像,且存在去噪后图像细节丢失、图
学位
随着网络优化,普适计算和物联网的快速发展,室内定位技术在消防救灾、地下停车寻车、商场购物等领域的应用越来越多。近年来,机器学习技术在诸多领域得到了广泛的应用并取得了很好的效果,故而越来越多的研究者开始采用机器学习的方法进行室内定位的研究,这推动了机器学习的室内定位方面的发展。本文研究了基于机器学习的室内定位技术,针对现有研究存在的问题,提出了三个有效的室内跟踪定位算法。  首先,为了提高定位的准确
学位
药物往往通过靶向相应的蛋白来发挥作用。因此,揭示药物和靶标的关系在药物开发中起着至关重要的作用。近年来,药物-靶标蛋白质相互作用(DTIs)的计算预测对于药物发现或药物重定位变得尤为关键。与昂贵且费时的体内或生物学试验相比,计算方法可以有效地识别潜在的DTIs并大大减少候选药物蛋白的范围。所以如何明确可靠的与药物相关的候选蛋白质,是一项值得研究的课题。本文提出了三种基于深度学习的DTIs预测方法-