基于卷积神经网络的自然场景文本检测算法研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:ydaf0rx0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景中的文本包含丰富而准确的语义信息,是分析和理解特定场景内容的关键要素。近年来,自然场景文本检测技术在自动驾驶、场景分析、盲人导航等领域得到了广泛应用,成为当前计算机视觉领域的研究热点,受到了工业界和学术界的共同关注。然而,由于自然场景中的文本往往形状大小多变、排列方向不一、环境背景复杂等原因,自然场景文本检测算法的研究仍然面临巨大的挑战。本文结合目标检测、图像分割和深度学习的最新研究成果,开展了基于卷积神经网络的自然场景文本检测算法研究,主要内容如下:(1)阐述了自然场景文本检测领域的发展进程,包括传统的自然场景文本检测算法和基于深度学习的自然场景文本检测算法的优缺点,并分析了自然场景文本的特点及检测难点。(2)在EAST算法的基础上进行改进,提出了基于深度特征融合的自然场景文本检测算法。主要改进点包括:引入DenseNet121作为基础特征提取网络,降低梯度消失和模型退化带来的影响,提高图像基础特征的有效性;采用转置卷积作为特征融合阶段的上采样方法,在扩充特征图的同时获得更为准确的图像特征;对损失函数中的文本分类损失和边界框回归损失进行改进,提高算法的检测性能。实验结果表明,该算法在ICDAR2015数据集上的准确率和召回率相较于EAST算法均有所提高。(3)提出了基于改进感受野模块的自然场景文本检测算法。在基础特征提取阶段使用VGG16为特征提取网络;在特征融合阶段加入改进的感受野模块,增大模型感受野的同时,增强算法对于多尺度文本的检测效果;在损失函数中采用回归性能更好的边界框损失。在各个基准数据集上的实验结果表明,该算法对于自然场景中的水平方向文本、多方向文本和长文本行均具有较为理想的检测效果,在ICDAR2015、MSRA-TD500和ICDAR2013数据集上的F值分别为83.3%、77.6%和85.6%。
其他文献
全景视频作为一种新颖的视频格式受到了人们的广泛关注,而虚拟现实游戏的热潮进一步促进了全景视频的发展。全景视频提供观看者沉浸的视频体验,视频的内容呈现于立体球面。本文主要研究全景视频视口预测和全景视频人物检测两方面内容。全景视频的视口预测具有重要的研究意义。在传统的视频传输过程中,视频服务器发送完整的视频数据到接收端。然而,观看者仅对视口内的图像可见,视口外的视频内容浪费了大量的传输带宽。因此,视口
现如今随着科技的不断发展,在社会的发展历程中,数据扮演越来越重要的角色。海量数据的利用对于生活或者商业中构建合适的模型来预测特定的任务有很大的优势。所以,在社会实践应用中大数据无处不在,如生物医学领域的疾病数据,计算机视觉领域的图像数据,自然语言处理的文本数据的使用等。为了能够更好的挖掘数据潜在的价值,挖掘数据的技术成为了近段时间来的研究热点,如:聚类和推荐算法等。在机器学习和数据挖掘中,聚类是很
在低光照环境下,由于普通消费者拍摄的照片通常会受到相机抖动、传感器噪声等因素的影响,从而导致所获取到的照片质量不佳。经过图像增强处理后,能够使获取到的图片质量得到一定的改善,以达到与人们主观审美感受相一致的结果。虽然目前有一些图像质量评估指标,能够对经过图像增强处理后的照片进行质量评价,但是,这些评价指标没有经过人们的主观验证,不能仅凭此判定经过图像增强处理后的照片就一定符合人们的主观审美。针对该
近年来,物联网(Internet of Things,IoT)已经成为一个重要的研究领域。其中,智能空间结合了环境感知和机器学习,以智能方式向用户提供智能和定制服务。随着传感和通信技术的进步,物联网使得用户可以随时随地与任何事物进行连接,也由此产生了更多的用户服务。因此,实现准确、非侵入式和安全的智能交互成为了研究热点。如今,居住在智慧城市的人们的方方面面都与物联网息息相关,正因为如此,身份识别服
随着工业的快速发展,人们对产品的质量要求也越来越关注。产品表面缺陷检测作为生产过程中最重要的工序之一,它直接影响到产品质量以及用户体验。产品在生产过程中往往会出现一些缺陷,这些缺陷具有一定的随机性,缺陷类型、形状大小各异。传统的人工检测虽然方法简单,有些缺陷的特征不够明显,利用人眼难以识别,检测误差较大,并且效率低下;现有的机器视觉方法能够实现自动检测,但其核心算法需要人工提取特征,存在选取特征不
图像检索是指将待查询图像与候选图像进行相似度比较,找出与查询图像相似或相关的图像。随着图像数据的海量增长和深度学习的快速发展,基于内容的图像检索吸引了越来越多的研究者。一方面,该课题对计算机视觉领域的其他任务(如行人重识别、图像分类等)有积极的促进作用,另一方面,该课题在实际应用中(如电商平台通过图像查询商品,安防等)也发挥了重要的作用。近年来,基于深度学习的图像检索方法取得了良好的效果。然而,图
当前网络信息地爆炸式增长,加大了人们在获取信息中消耗的时间及精力。自动摘要技术能够有效地提高人们面对巨大文本信息冗余时获取信息的效率。自动摘要技术按原理分为抽取式与生成式:抽取式自动摘要技术是对文本中的所有句子进行重要性评估,然后按照重要性选取句子组成摘要;而生成式自动摘要技术是基于内容,由算法生成摘要。但目前效果较好的生成式自动摘要方法,对输入文本长度的处理能力也仅限于短文本,而中文摘要任务则更
当今时代处于一个信息爆炸时代,随着数据量迅速增长和信息高度密集,云计算和大数据等技术的蓬勃发展,成为了当今社会不可或缺的重要技术。而存储是大数据的重要基石,也是云计算的重要基石。当前的云计算和大数据应用严重依赖于异构存储平台,云计算的多租户环境以及数据多样性都使得应用负载的特性差异巨大,必须设法有效地综合利用这些异构存储系统来满足差异性的需求。此外,在云计算和大数据环境下,能耗在数据存储中心的成本
如今,由于序列到序列模型在自然语言领域的重大突破,大多数基于对话生成任务的研究目标都集中于如何让机器产生更高质量的回复。然而,这类研究只能让聊天机器人被动地对内容进行回复,随着对话的展开,人们继续交流的意愿也会逐渐下降。因此,本文研究的方向将从如何让聊天机器人产生高质量的回复转变成如何使其主动有效地进行提问。结合问句的特点,本文提出了三种基于语法结构的问句转换方法和一种基于问句筛选的波束搜索机制。
图像去噪是一个基础性的科研任务,其旨在对获取到的噪声图像通过某种去噪算法的处理后能够获得对应的纯净图像。当前的很多去噪方法是使用大量的成对图像(噪声图像和纯净图像)去训练一个卷积神经网络使之学习到从噪声图像到去噪图像的映射关系。相比于传统的基于图像先验知识的方法,这类方法能够自动地挖掘和利用更多的图像统计信息,从而获得更好的去噪效果。但是,这类方法目前依然还存在着一些问题,如有去噪图像过模糊、单个