基于深度学习的文本检测与识别模型研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:liboliang1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本是人类文明的基石,广泛出现在自然场景图像中,它所表达的丰富而精确的语义信息,有助于人类理解和分析周围的场景内容。因此,文本检测与识别技术在计算机视觉领域备受欢迎,为实时翻译技术、视障人士导航技术等应用系统的实现开拓了新的发展道路。论文主要从文本检测与文本识别两个阶段对自然场景中的文本图像展开研究,研究内容如下:在文本检测阶段,本文选取了高效精确的EAST文本检测模型进行深入研究,通过研究EAST模型的网络结构和损失函数可知,EAST模型进行文本检测时,虽然检测速度较理想,却存在因网络感受野不足而造成长文本目标检测不完整的问题。为了提高长文本目标的检测性能,本文提出基于改进的EAST文本检测模型。首先,通过在网络中引入金字塔池化结构增加网络感受野,来改善检测网络对长文本目标的感知能力;其次,针对数据集正负样本失衡的特性,采用优化损失函数来减小正负样本输出的差异;最后从实验一和实验二两个维度进行分析。实验结果表明,改进后的模型对长文本目标检测不完整的情况有所缓解,并且在多个文本数据集中均取得了较好的性能。在文本识别阶段,本文提出了改进的CRNN文本识别模型。首先,针对倾斜的文本图像,采用基于直线探测的矫正方法调整文本方向;其次,分析原特征提取网络VGGNet在中文识别上的不足,采用DenseNet取代VGGNet来提取特征,并对DenseNet的卷积进行改进;然后,根据中文文本序列长的特点,使用双向长短时记忆网络学习样本的空间信息特征;最后在英文数据集和自制中文数据库上进行实验。实验结果表明,改进后的模型在识别性能方面优于改进之前的模型,且该模型能够准确地实现中文文本识别,具有很好的实用性。
其他文献
随着激光技术的不断成熟,由半导体激光器泵浦的单掺Tm3+晶体的全固态激光器因其结构简单,使用寿命长,光束质量好等优势,受到人们广泛的关注。本文以掺铥离子铝酸钇Tm:YAl O3(Tm:YAP)晶体为激光器增益介质,选取具有钙钛矿结构的锆钛酸铅材料来制备可饱和吸收体器件,分别对被动调Q模式和被动锁模模式下Tm:YAP激光器的输出特性展开深入研究。首先,对钙钛矿材料的微观结构和物理化学性质进行深入研究
学位
永磁同步电机由于其结构简单、高功率密度、高可靠性等优势,已广泛应用在电动汽车、数控机床、机器人等各个领域。永磁同步电机是一个多变量、强耦合的非线性系统,控制难度较大,对控制算法的性能要求也较高。滑模控制方法由于结构简单、抗扰能力强等优点,而被国内外学者应用于永磁同步电机系统的设计,使得永磁同步电机控制系统的动态性能以及精度得以提升,是永磁同步电机主流控制方法之一。但传统的滑模控制方法无法抑制非匹配
学位
随着人们生活水平的提高,更多人选择私家车出行,这无形中让城市交通陷入了一定的困境,导致人们常因为早高峰、晚高峰的交通阻塞问题而耽误出行,甚至导致交通事故的发生,因此建立便捷、高效智能的交通管理系统十分有必要。车辆目标的检测和分类是缓解交通问题的重要方法,也是智能交通中的重要组成部分,因此,本文以深度学习为基础,对于车辆目标的检测和分类进行研究,主要研究内容如下:针对车辆目标检测问题,本文选择SSD
学位
数据聚类是数据挖掘领域的重要研究分支之一,是对无标签信息的数据进行归类的一种方法。由于没有标记信息的指导和监督,目前的主流聚类思想是首先利用数据内在的相互关系无监督的学习数据的有效低维表示,以提高不同类簇数据间的区分能力,再将这些低维表示送入经典聚类算法得到聚类结果。传统的低维表示学习模型大多针对具有单一视图的数据。但是单视图在数据描述上的片面不能充分的发挥表示学习模型的潜在能力,进而影响后续聚类
学位
随着人工智能技术逐渐进入人们的生活,智能化设备成为了国内外科研人员的主要研究方向。其中,机器人等可移动设备的自主导航更是研究热点,该类研究的关键技术就在于基于视觉的同时定位与地图构建(Simultaneous Localization and Mapping,SLAM),该技术在理想化的静态环境中已经基本趋于完善。但在生活应用中,动态物体会不可避免地出现在设备采集的图像中,导致现有的视觉SLAM系
学位
本文针对高速永磁电动机铁心损耗大,受磁场多因素影响导致铁耗计算误差较大的问题,以一台150k W、30000r/min的高速永磁同步电动机(HSPMSM)为例,提出考虑磁场多因素影响的变系数铁耗计算模型,并在此基础上进行铁心损耗的计算,分析影响铁耗的因素,研究降低铁耗的方法。首先,基于SPWM变频器供电,建立电动机的场路耦合分析模型,对样机进行瞬态磁场分析。在经典铁耗计算模型的基础上考虑高次谐波、
学位
目的 探讨脑积水性脑室-腹腔分流术(ventriculo-peritoneal shunt,VPS)诱发颅内感染(intracranial infection,ICI)的病原菌构成及相关危险因素。方法 选取2019年7月至2021年1月在广西壮族自治区江滨医院行VPS后发生ICI的35例脑积水患者为感染组,未发生ICI的65例患者为未感染组。分析术后感染的病原菌构成,并采用多因素Logistic回
期刊
调频连续波(FMCW)激光测距技术凭借其非接触、高精度、自动化程度高等优点,在航空航天、自动驾驶、无人机等领域中有广泛的应用前景。随着长距离、大空间、大尺寸等测量需求的提高,导致在激光测距中产生的差拍信号频率越来越高,使得信号采样率增加,从而产生采样电路设计要求高、后续数据存储及处理量大、频率分辨率降低等问题。针对上述问题,本文研究了基于压缩采样的差拍信号频率估计方法,根据压缩采样原理构建基于低速
学位
声音事件检测与定位(Sound Event Detection and Localization,SEDL)的目的是识别一段音频中所有声音的标签、它们各自的起始偏移时间以及相应的方位角和俯仰角的到达方向。这一技术可以有效实现通过空间维度自动描述人类活动并帮助机器更无缝地与世界交互。SEDL可以成为辅助听力系统、场景信息可视化系统、沉浸式交互媒体的一个重要模块。在音频事件检测与定位过程中,同一时刻内
学位
<正>肝细胞癌(HCC)是原发性肝癌最常见的病理类型,占总病例数85%左右,其致死率高居全球第三位[1],HCC发病率受肝炎病毒的慢性感染(乙型和丙型肝炎病毒最为突出)、酒精成瘾、机体代谢障碍及接触黄曲霉毒素等危险因素影响[2]。手术是早期肝癌最优治疗方案,但HCC起病隐匿,大多数肝癌患者确诊时已达肿瘤中晚期,手术切除和移植合格率低。无手术指征者可采用局部消融、肝动脉栓塞灌注化疗、放射及分子靶向等
期刊