基于卷积网络的自然场景文本检测研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:xingjiena
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景文本检测的主要任务为在自然场景图片中检测出文本区域。检测并识别文本为理解图像提供了先决条件。因为近几年来深度学习在图像领域有了根本性的突破,所以目前有关场景文本检测的工作都是基于深度学习技术。虽然卷积网络带来了巨大的进步,但是该领域仍然有很多问题。第一,现有的模型不能根据用户需求自动调整自身复杂度;第二,如何精确检测不规则形状文本;第三,如何在不使用已有的层标准化技术的情况下直接高效训练场景文本检测模型。针对这些问题,本文做了一些工作。其中主要的贡献包括:本文设计了一种结合了MSDNet和空间划分的文本检测模型。场景文本检测领域具备很高的实用性,因此如何设计适应实际应用中的硬件水平的模型来进行场景文本检测是一项非常重要的任务。该工作利用MSDNet具备多输出端口的特性,从而根据硬件条件来自动选择输出端口;并且通过空间划分配合MSDNet不断划分数据集来获得更高的分类精度。本文提出了一种基于宽度放缩的不规则场景文本检测方法。实际应用中文本的形状多端,如何检测不规则的文本是当前的一个难点。现有的放缩算法不仅需要文本的全局感受野,而且需要提前约定放缩比例。而基于宽度放缩的方法首先根据文本宽度对文本框进行缩小,然后通过非等距放大将文本框还原至原有尺寸。该方法在放缩时仅需文本高度作为感受野,其要求小于现有放缩算法所使用的全局感受野,因此预测的文本框边缘更为准确。本文设计了一种场景文本检测模型的直接训练方法。现有的模型都是基于在Image Net上预训练的基本网络,如果想要训练自己设计的基本网络,则需要重新直接训练整个模型。如何从头开始直接高效训练整个模型便是一个关键问题。在该工作中,我们发现了模型在不用批标准化技术(Batch Normalization)和组标准化技术(Group Normalization)下使用高学习率难以训练的原因,并且发现中间层中心偏移的原因在于卷积核中心偏移。最后我们用卷积核中心化解决了中间层中心偏移的问题,并且使用卷积核方差标准化和卷积核正交约束来解决模型训练爆炸的问题。
其他文献
目的:探讨使用中效糖皮质激素治疗原发性肾病综合征期间,类固醇糖尿病的发病率、临床特点及危险因素。方法:2011年1月至2015年12月,南京总医院国家肾脏疾病临床医学研究中心收治的原发性肾病综合征患者共2986例[包括局灶性节段性肾小球硬化症(FSGS)、微小病变肾病(MCD)、足细胞病、IgM肾病(IgMN)],纳入糖皮质激素起始剂量≥30mg/d(泼尼松量),持续时间≥4周,门诊随访时间≥1月
目的:通过建立SD大鼠心肌缺血再灌注损伤模型及原代心肌细胞缺/复氧损伤模型,研究比索洛尔后处理对心肌细胞线粒体自噬及线粒体分裂的作用,并通过应用自噬抑制剂氯喹及慢病毒低表达Drp1的方法,观察比索洛尔对线粒体自噬通路Drp1/Pink1/Parkin的影响,探讨比索洛尔对缺血再灌注/缺氧复氧诱导的心肌细胞损伤的保护作用机制。方法:1.实验一:探讨比索洛尔后处理对SD大鼠心肌缺血再灌注诱导的心肌细胞
背景:心力衰竭是各种器质性心脏病的最终临床结局。随着中国老龄化加重,心衰已成为一种高发病率、高致死率的疾病。据统计,我国心力衰竭患病率为0.9%,心力衰竭总人口超过1200万。心力衰竭患者常因症状加重而需反复入院治疗,约25%的患者在出院后一个月内再次住院,约50%的患者在出院后6个月内再次住院。目前部分起搏器可以连续远程监测患者24小时平均心率、休息时心率及患者活动度等反映心衰情况的参数,同时也
声表面波气体传感器广泛的应用于各种领域,且未来的需求量巨大,本文主要研究基于石墨烯敏感层的声表面波氢气传感器。在LiNbO3压电基底上,生长氧化还原石墨烯(RGO)敏感层,并利用铂(Pt)作为催化剂,研制成高灵敏度氢气传感器,用于痕量氢气检测。论文主要分为下面五个部分:第一章:介绍了声表面波传感器的基本概况及石墨烯的特性,分析了石墨烯作为氢敏材料的优势以及在声表面波氢气传感器中的应用前景。第二章:
人工智能技术开始广泛应用于各行各业,解决了包括医疗、金融、通讯、重工业、服务业在内的多个行业痛点,极大提升了社会生产力,并已经上升为国家战略,催生了市场对人工智能领域人才日益增长的需求。然而目前高校人工智能相关专业的学科建设普遍存在师资匮乏、教学资源不足、培养方案与产业需求脱节等问题,限制了对学生实践能力的培养。针对上述问题,星环科技公司开发了星云实验教学云平台。星云平台搭建在公有云平台上以Saa
重费米子材料由于其奇异的物理性质吸引了人们广泛的关注。Kondo晶格模型是研究重费米子材料比较成功的理论模型之一。Kondo屏蔽和RKKY相互作用间的竞争共同决定了体系的物理性质,前者倾向于在强耦合极限形成Kondo自旋单态,后者倾向于在弱耦合极限稳定磁序。在二维蜂窝晶格系统上,由于狄拉克点附近奇特的线性态密度,吸引我们打算在二维蜂窝晶格上研究半填满的Kondo晶格模型。首先我们从平均场的角度出发
研究背景:帕金森病是一种常见的神经退行性疾病,典型特征表现为静止性震颤、强直、运动迟缓、步态异常和平衡障碍等运动症状,另外也有自主神经功能紊乱、睡眠障碍、认知水平下降和焦虑或抑郁等非运动症状。冻结步态是帕金森病患者的一个常见症状,通常出现在疾病晚期,它是指患者在开始行走或行走过程中,步态不能启动或突然中断,感觉双脚像被粘在地面上。由于冻结步态的发作具有不可预测性,对冻结步态的诊断通常是通过问卷调查
日常生活中,很多家用电器如油烟机、空调、吸尘器存在管道低频噪声问题。传统被动噪声控制方法低频降噪性能较差,且可能影响散热。在这些电器中应用有源降噪的一个挑战是:由于传播噪声的管道短,控制系统的电声器件一般距离较近,一方面次级源产生的声信号会反馈至参考传声器,影响参考信号质量和系统稳定,导致控制性能下降;另一方面参考传声器与次级声源距离较近使系统的因果性要求无法满足,影响控制性能。本文从声反馈与因果
蛋白质宇宙是包含了所有生物体中全部蛋白质的集合,它将不同蛋白质的序列、结构和功能联系在了一起。通过利用实验获得的蛋白质序列、结构等信息构建完整的蛋白质宇宙是生物信息学中的重要课题,其对蛋白质结构预测、蛋白质进化路径分析以及蛋白质结构设计等方面的研究都有着重大意义。蛋白质结构空间是蛋白质宇宙的一个表示形式,人们通过在其中建立起层级结构、图结构和网络结构,在不同蛋白质的序列、结构和功能之间建立了联系。
基于位置的计算服务是当今互联网服务商提供的一项应用广泛的基础服务。用户向服务商提供自身的位置及相关信息,服务商利用这些信息来进行计算,从而提供高质量的服务。然而这类服务通常需要在用户与服务器,用户与其他用户间共享位置信息,因此用户在获得利益的同时,也承担了巨大的位置隐私泄露风险。研究如何能在保护用户位置隐私的前提下,提供高质量的计算服务具有重要意义。本论文主要研究了两类不同的基于位置的计算中的位置