基于深度学习的场景文本检测与识别研究

来源 :海南大学 | 被引量 : 0次 | 上传用户:wcf333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景文本检测与识别的目的是从场景文本图像中定位并识别出计算机可使用的文字,在实时翻译,机器人导航等场景中有着广泛应用,有着很大的研究价值。自然场景的文字受到场景,光照变化以及噪声的干扰,使得传统的文本文档检测识别算法效果不佳。随着深度学习的发展,基于深度学习的场景文本检测与识别算法已经取得了很大的突破,但仍存在着许多问题,对于检测来说,目前算法针对任意形状文本做出的相关改进需要复杂的标签生成和后处理,一方面严重的影响了运行速度,一方面后处理算法根据文本形态改变而改变,鲁棒性较差。对于识别而言,目前普遍在预测阶段采用基于注意力机制的方法,采用该方法的场景文本识别模型存在着注意力漂移的问题,影响了识别的准确率。针对以上问题,本文研究内容包含以下两点:1.针对目前用于解决曲线场景文本检测算法运行速度慢的问题,本文研究了基于不需要后处理的通用目标检测框架Sparse R-CNN的任意形状场景文本检测算法,本文将Sparse R-CNN的建议区域改进为贝塞尔建议区域,并且利用多种注意力机制改进了Sparse R-CNN的特征提取模块。改进后的模型相较于需要复杂标签生成和后处理的现有算法速度大幅提升,在ICDAR2015和SCUT CTW1500数据集上检测速度达到了18fps,大幅领先目前主流算法。检测效果上,可以有效的检测曲线文本,倾斜文本,水平文本等多种情景下的文本,证明了贝塞尔建议区域的鲁棒性。2.针对目前预测阶段中基于注意力机制的识别模型存在的注意力漂移问题,本文研究了采用特征提取,序列建模,预测三阶段的识别算法SAR。本文在特征提取中加入CBAM注意力模块,小幅提高了准确率。在预测阶段,详细解释了SAR模型存在的注意力漂移现象,接着利用不需要字符级别标注的高斯先验方法优化了注意力机制。最后在规则文本数据集和不规则文本数据集进行了测试,结果表明加入的CBAM模块使得识别准确率平均上涨了0.3。加入了高斯先验优化后注意力机制使得平均识别准确率上涨了1.4,证明高斯先验有效的抑制了注意力漂移。此外,还可视化分析了注意力可视化热图,进一步验证了高斯先验的有效性。最后和当前的主流方法进行了比较,说明了本文方法的实用性并指明了进一步的研究方向。
其他文献
随着“互联网+”时代的来临,各领域、行业开始朝着信息化发展,在当前的网络数据交易中,知识和数字财产、软件程序、歌曲、图片与房地产等各种类型的资产在互联网节点间以数据的方式进行交换。但是,现有的第三方参与价值交换会造成单点故障,带来严重的威胁和风险;更重要的是,成本太高。区块链能够很好的解决以上问题,区块链以自动化、安全和方便的方式进行数字化和转移,不仅用于交换加密货币,还用于交换其他类型的资产,更
学位
花青素是一类天然的水溶性色素,广泛存在于植物的各个部位。对于植物来说,花青素不仅可以吸引昆虫授粉,帮助传播种子及繁殖,还能提高植物的抗逆性,帮助植物抵御多种逆境胁迫。对于人类来说,花青素具有丰富的营养价值和保健功能,花青素可以抗氧化、抗辐射、抗肿瘤、防晒伤、保护视力、提高记忆力等。因此,对非生物胁迫条件下开展花青素合成调控的研究对于培育高抗逆性作物以及高花青素含量的经济植物具有重要的实践意义。尽管
学位
短时交通流预测作为智能交通系统(ITS)的主要部分,已成为近年来科学研究的热门话题。有效的预测有助于提升智能交通系统的性能从而减轻城市的交通压力,对于智慧城市的建设也有着重要意义。目前的交通流预测研究主要基于路段的历史时间序列数据,而很少将包含大量与交通流相关的数据进行综合分析。使用单一数据的模型无法从多个数据中学习跨数据源的相互依赖关系,在利用数据的丰富性方面远远不足。其次,大量针对交通流预测研
学位
城市交通拥堵造成了严重的资源浪费、环境污染等问题,与国家生态文明建设的政策相悖,亟待解决。解决交通拥堵的方法除了耗费大量资源去重新规划整改路网,最有效且易实现的方法就是对车辆进行更好的路径规划。路径规划算法的发展由来已久,传统的静态路径规划算法不能灵活应对复杂多变的城市交通环境,一些动态算法(例如动态A*算法、RRT算法等)也存在延时性和算法效率低等问题。近些年深度强化学习方法在很多领域取得了成绩
学位
随着信息技术的迅猛发展,人类社会已然步入大数据时代,庞杂的数据在带给人们更多知识和机遇的同时也造成了信息过载的问题。所以如何快速有效从庞杂的数据中获得有用的信息变得尤为重要。而推荐系统则在某种程度上解决了这个难题。但是现有推荐算法在利用用户历史行为数据学习用户偏好的时候往往假定用户兴趣是静态的,因此难以反映用户兴趣随时间的动态变化。本文考虑到用户历史交互数据中的时序依赖关系,使用序列推荐建模的方式
学位
在软件开发任务中,由于软件系统部分功能经常表现出重复性与复杂性,因此开发人员为了降低工作量往往通过对现有代码进行拷贝、粘贴以及少量改写等操作来构建新的软件系统。这会造成代码库中具有大量文本相似或者功能相似的代码片段,一般称为代码克隆。代码克隆虽然大大地提高了软件开发者的工作效率,但是同时会为软件系统引入未知的安全漏洞,增加软件后期维护的成本,并导致难以预测的后果。为了解决上述问题,一般使用代码克隆
学位
区块链技术是分布式信息技术领域的成功应用,这项技术在各行业领域已经得到了广泛的认可。区块链技术为解决传统的中心化模式中所面临的用户信任、单点故障等问题提供了新的思路,并借助星际文件系统(Interplanetary File System,IPFS)等分布式存储系统以降低区块链数据的存储成本。但IPFS本身并不具备数据加密保护功能,提交至IPFS的数据将对所有参与节点公开,区块链环境下的IPFS数
学位
异常检测已经应用于生活中的各个领域,例如航天航空技术的异常检测,服务器性能负载的异常检测和视频流量的异常检测等领域,船舶轨迹的异常检测也被研究者们高度重视。船舶轨迹的数据以时间序列的形式存在,其中使用最多的就是船舶自动识别系统数据(AIS)。现阶段基于AIS数据的研究在计算机领域和海洋领域都有了诸多硕果。传统的船舶轨迹异常检测方法主要有以下几种:基于连续概率分布的方法、基于连续Cholesky分解
学位
微服务架构是一种新的软件架构风格,它提倡将单体应用程序划分成一组小的服务(称之为微服务),每个服务运行在独立的进程中。微服务高内聚、低耦合、高可用、可伸缩等优点使得多服务应用架构逐渐成为IT应用交付的基准。然而,组件之间繁多且复杂的交互使得微服务性能异常诊断充满挑战性。如何设计一种适用于微服务架构的性能异常检测和根本原因定位方法是服务计算领域当前研究的一个热点。目前学术界已经提出了许多针对大型微服
学位
近年来,最高法院联合各级下属单位发布了大量规范化的裁判文书。法律案件裁判文书是法学界颇具研究价值的文献,对于广大法律研究者来说也是宝贵的研究材料。与此同时,随着自然语言处理技术的发展,为了提高司法从业者的办案效率,将人工智能技术应用在司法领域已逐渐成为一种趋势。相似案例匹配作为人工智能支持司法审判的重要内容,对提升法院的整体审判水平、实现类案适法统一、促进司法公正有着重要的积极意义。相似案例匹配属
学位