基于YOLOv3网络的卡通头像检测研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户：cse_gzzhu

【摘要】

：

【作者】

：

陈争光

【机构】

：

中南财经政法大学

【出处】

：

中南财经政法大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着卡通动漫产业的蓬勃发展,有关卡通类的视频呈现了爆炸式的增加。对卡通类视频智能化理解的首要步骤就是对视频中动漫角色的身份信息正确识别,如何正确识别这些动漫角色是计算机辅助建模、摄影、自动剪辑、广告推荐等众多视觉应用不可或缺的前提条件。因此在卡通动画场景中,如何智能化的实现动漫角色的检测是当下一个亟待解决的问题。深度学习在图像分类领域取得了很大的成果,有效地提高了图像检测和识别的精度,以及深度学习具有自主学习能力,检测和识别精度高,鲁棒性强,使得很多应用变成可能。由于YOLOv3检测模型在检测领域中的检测目标的速度拥有很大的优势,所以选择YOLOv3目标检测算法作为卡通动漫场景下检测动漫角色的基础模型。本文主要从网络的颈部和网络的骨干结构这两个方面对基础模型进行改进,来提高YOLOv3目标检测算法对卡通动漫角色的检测准确率（AP）。本文所研究的内容主要概括为以下几点:（1）为了更好地重利用卡通角色的特征,本文在YOLOv3的特征提取网络darknet-53的基础上引入Dense block。相较于YOLOv3的残差模块在提取特征时会漏掉一些浅层网络的关键信息,通过加入一个Dense block,可以更有效地利用提取的特征,特别是对于那些来自较浅层的特征,以此来提高主干网络对图像中特征的提取能力。实验结果表明,加入Dense block后模型的检测准确性相比于没有加入时提升了约1.82%的AP。（2）由于YOLOv3目标检测算法采用的Darknet53网络提取图像的特征时,它只会去处理锚框内的特征和感受野,在检测角度变化很大的卡通头像时,不十分的友好,为了解决YOLOv3这种局限问题,本文在骨干网络提取特征后,引入一种高效的特征融合手段基于双向采样的特征融合金字塔Bi FPN,Bi FPN模块在融合特征的同时,还可以精炼锚框中的感受野让感受野更加灵活以及增强图像的语义信息,同时设计新的anchor匹配规则获取更多的锚框。实验结果表明,引入Bi FPN模块后模型的检测准确性相比于没有引入时提升了约0.91%的AP。本文通过以上几点措施,能够对卡通头像的检测效果带来一定的提升,提高卡通头像检测系统的可用性,具备一定的理论和实用价值。

其他文献

多语义路径融合的个性化论文推荐研究与实现

随着信息爆炸时代到来,越来越多的人难以在短时间内找到自己需要的资源。尤其是在蓬勃发展的科学研究领域,论文数量呈指数级增长,这给快速获取与自己研究领域密切相关的论文带了巨大的困难。通常,在研究生教育期间,为了更好的梳理自己研究方向的发展脉络,研究生要花费大量的时间和精力寻找论文。因此,个性化的论文推荐方法被研究生们所期待。近年来,随着社交网络的快速发展,基于社会关系规则和网络理论的推荐方法在一定程度

学位

基于NL2SQL的结构化数据检索研究与系统实现

网络技术飞速发展的今天,数据成为创新和增长的重要驱动力,它可以帮助企业了解和改进业务流程,从而制定适当的发展战略,此类数据很多以某种固定结构存储在关系型数据库中,用户通常需要通过相关系统的交互界面完成数据检索,而自然语言作为人类最常使用的表达方式,具有简单、易用的优点。在此背景下,通过自然语言完成对结构化数据的检索,不仅为用户提供了一种新颖便捷的检索方式,还能提升数据的查询效率。自然语言理解NLU

学位

基于BERT模型的中文Text-to-SQL系统

在当前信息技术高速发展的情形下,各行业领域都产生了海量的数据,而这些数据往往都是存储在结构化或半结构化的数据库中。对于关系型数据库中数据的获取需要使用SQL语句来执行查询操作,但是这些编程语句的使用增加了非技术人员分析和使用数据的难度,开发技术人员也无法将所有可能用到的查询语句封装成接口供非技术人员使用。因此为了快速便捷地从数据库中准确获取数据信息,自然语言处理领域的研究人员尝试使用深度学习模型来

学位

基于行业的多因子选股和择时策略研究

随着中国证券市场的快速发展,证券市场日益复杂,传统基于基本面分析的方法在股市中获利越来越困难。伴随着计算机的软硬件快速发展,基于数学和计算机的量化交易逐渐走进了人们的视野。量化选股和量化择时是量化交易两个比较重要的方向,量化选股有很多种实现方式,其中使用较多的是多因子选股,但是近年来的多因子选股论文都把因子与股票未来收益之间的关系看作是相同的,而现实中因子与不同类别股票未来收益的关系不一样。所以基

学位

融合表情符号的淘宝评论情感分析系统设计与实现

随着网络信息技术的发展,相比于传统的购物方式,人们更加热衷于网络购物,并且喜欢在京东、淘宝等购物网站上发表评论。同时,中文文本不再是在线评论情感表达的唯一载体。表情符号渐渐兴起并且快速演变,受到了广大网民的青睐。网络购物中,在线评论扮演着重要角色,对用户的购物决策产生重大的影响。因此,对在线评论进行情感分析,有利于商家掌握用户的真实评价,改善产品质量,给客户提供更加舒适的服务。关于在线评论的情感分

学位

基于改进的YOLOX手势识别算法及其轻量化研究

手势作为人类一种原始的交流方式,其特点是宜表达。无论是在人机交互还是在虚拟现实等领域都有着十分重要的研究价值。近年来随着深度学习的浪潮,各种基于深度学习的图像、视频处理技术的手势识别模型被提出,其中不乏一些在某些具体应用任务中效果显著的模型。相较于传统识别模式,深度学习方法可以自动且高效地提取图像特征,极大地提高了识别的准确率。然而,主流的识别算法为了达到更高的精度,往往有着极为深层的网络结构和极

学位

基于孪生网络的单目标跟踪系统设计与实现

近年来,科学技术水平飞快提升,越来越多的理论基础应用到实际生活中,而计算机视觉有着广阔的应用场景,例如自动驾驶,安防监控,智慧医疗等。目标跟踪作为计算机视觉中的一个热门研究领域,近年来也受到广泛关注。目前,目标跟踪已在工业生产、医疗、教育及交通管理等方面广泛应用。尽管如此,目标跟踪仍面临跟踪精度和跟踪速度的双重挑战。而孪生网络具有权重共享的特点,保证精度的同时降低了网络参数量。因此,孪生网络在目标

学位

基于多维度专注度分析的学习资源推送系统

如今,伴随着互联网和智能终端的广泛应用,教学模式也随之发生了巨大的变化,在线教育受到了越来越多人的青睐。在网络学习的环境下,受到网速等因素的影响,学生无法保持老师当面授课那样的专注度。而课堂专注度是评估学习质量的重要指标,代表着学生对知识的接受程度和感兴趣程度。另外,在传统的教学模式下,教师可以时刻观察学生的课堂表现。但是在线教育由于空间的限制,教师无法及时获取到学生的学习情况。所以在线上授课的过

学位

基于深度学习的试卷图像笔迹去除的研究与应用

在人工智能技术不断发展的历史大背景下,中国的教育行业也逐步引入人工智能技术来辅助教学。对不熟悉的试题,进行针对性的重复练习是提升学习效果的重要手段。然而,家长往往难以获取试题的原始电子文档。通过图像处理工具对试卷笔迹进行手动擦除成为一种获取原始电子文档的手段,这种方法不仅浪费了大量的人力资源,对于不会操作图像处理工具的家长更是形成了阻碍。本文针对这种应用场景,提出一套试卷图片笔迹自动擦除的技术方案

学位

基于Superpoint与Disk融合的稀疏重建研究

视觉三维重建可以利用二维图像得到三维点云,还原物体的三维信息,这是许多三维应用中核心的一步。三维重建中,单目视觉法以其设备简单、成本低、使用灵活以及适用场景广泛等优点而深受学界与业界青睐。稀疏重建作为单目视觉法中基础的一步,是提升三维重建性能的方向之一。当前的稀疏重建中,都是单独用一种特征提取算法进行稀疏重建。因为每种特征提取算法所提取的特征有各自的优点,且目前没有任何一种特征提取算法能够很好地应

学位

基于YOLOv3网络的卡通头像检测研究

与本文相关的学术论文