基于生成数据增强的多尺度目标检测算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:jia1987_LOVE
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习和计算机视觉技术的快速发展,目标检测任务受到了广泛的关注与研究,其在智能安防,自动驾驶,航空航天等领域有者关键的应用。然而,当前目标检测主要存在特定场景下的训练数据缺乏,对小目标检测性能不佳等问题。本文针对数据缺乏问题,研究了通过生成数据对训练数据进行增强,再进行目标检测的方法,主要的研究内容如下。第一、本文研究了一种合成目标检测数据的方法。首先通过DCGAN生成被检测目标的图像,接着通过图像匹配找到原图像的位置并用生成图像覆盖原图像,最后通过pix2pix HD网络消除边缘的差异。实现过程中对生成对抗网络的损失函数进行了改进,加入了模型间的距离正则项来减少模型崩塌的产生。第二、本文对目标检测特征提取的主干网络进行改进。本文基于RetinaNet及其主干网络ResNet的结构进行改进,在残差块结构中加入空洞卷积结构,增大特征图像的感受野,通过减少卷积之后的特征图的通道数量来减少计算量,并有效的加深网络结构,引入新的层级提取特征用于之后的特征融合工作。第三、基于特征金字塔的结构进行多级特征融合的方法改进。本文采用空间自适应融合的多级特征融合结构,可以自适应的学习不同的参数来融合低层和高层的特征图像。高层的特征采用连接的自下往上的结构,将低层特征更好的融合到高层,对较小和较大的目标都可以很好的检测。第四、对目标检测边界回归损失函数的改进。一般的边界回归损失函是一般使用Ln范式,然而目标检测的评价指标是基于IoU,然而Ln范式无法反应IoU的回归性。因此基于IoU损失函数进行改进,加入了目标框和预测框的中心点的距离和长度和宽度的比例的惩罚项,完善了IoU损失函数的约束。最后,通过实验验证了本文改进的有效性,并且将最终的改进模型使用生成的数据进行实验,得到了良好的检测效果与精度,验证了通过生成数据进行目标检测方法的合理性和有效性。
其他文献
视觉定位技术作为移动机器人自主导航的核心技术,在赋能空间位置感知方面有着重要的价值。不对环境做任何限制,只依靠运动目标携带的相机就可实现定位功能的特点,使得视觉定位系统可广泛地应用于国防领域、航空航天领域、工业领域、日常生活等场景。尤其对于卫星信号缺失,有源定位无法部署或大范围覆盖的复杂环境,视觉定位更是凭借应用场景丰富,载体类型不限,成本可控的优点,在工业界和学术界引起了广泛的兴趣。视觉里程计(
航拍图像的目标检测是计算机视觉研究领域的前沿课题之一,在诸如城市土地使用类型分析,交通监测和农作物生长监测等领域都取得了广泛应用。目前应用最广泛的目标检测方法大多都基于深度学习,其中又根据是否使用一系列预先铺设好的锚框(Anchor)分为Anchor-Based和Anchor-Free两种类型,常见的Faster-RCNN、Cascade-RCNN等都属于Anchor-Based一类。最近兴起的A
近年来,移动互联网技术的快速进步和智能设备的广泛普及使得基于位置的社交网络平台得到了空前的发展。位置社交网络可以将虚拟的网络社区和真实的物理世界联系在一起,从而使用户能够通过移动设备将自己喜欢的地点分享到网络上,帮助其他用户发现有趣的地点。因此,向用户推荐感兴趣的地点成为了一个热门的研究方向。兴趣点推荐系统主要是通过用户的历史签到数据来获取用户的出行偏好,以此向用户推荐地点。但现有的关于兴趣点推荐
在实际应用中,情感分析通常是与领域相关的,由于领域之间的语义差异,相同的词在不同领域所表达的情感极性可能是矛盾的。因此,在特定领域训练好的模型,可能无法在另外一个领域很好的运行。另外,领域之间可能存在公共信息,为每个领域都训练单独的情感分类器会显得比较冗余。因此本文的工作以此作为出发点,旨在研究如何充分利用多个领域有限的训练数据来提高所有领域的分类性能。与此同时,本文会聚焦于跨领域文本情感分析场景
随着互联网的飞速发展,网络数据种类和规模极速增长,用户难以发掘出感兴趣的物品。为解决“信息超载”的问题,个性化推荐算法被广泛地研究和使用。数据稀疏程度较高且数据规模较大对推荐算法的准确率和推荐效率提出了挑战。研究高效准确的推荐算法对提升用户使用体验和企业盈利具有重要意义。本文从用户行为角度出发,在协同过滤算法的基础上针对数据稀疏性、推荐系统的可扩展性和近邻搜索的高效性等问题提出了对应的解决方案:1
登机桥在对接舱门后,飞机会随着自身的载重变化发生高度变化,因此登机桥必须工作在自动调平模式以避免和飞机舱门发生碰撞。登机桥通过调平轮上的编码器实现此功能,但该机构会发生假接触,打滑等问题,每次对接完成后都需要桥手进行检查。目前无人驾驶登机桥的研究在替代桥手的同时也引入了新的研究课题,即如何更准确且智能的检测机舱位移。本论文分析基于视觉的无靶标位移测量方法,主要研究了基于稀疏光流和特征点匹配的机舱位
在医疗领域中大量的专业医学知识以文本的形式存储,利用自然语言处理算法对其进行分析处理能够帮助医生减轻工作负担。肺癌领域的前沿趋势预测可以为医生未来研究方向的规划提供参考,抽取医疗文本中的关键信息能够协助医生阅读文献,自动问答系统可以在不增加医生负担的情况下帮助大众查询简单的医疗问题。本文从以上几个需求出发,将自然语言处理技术应用于肺部疾病文本分析中以缓解医疗系统的压力。本文的主要研究工作如下:针对
随着数字成像系统和深度神经网络相关技术的成熟,基于视觉信息和神经网络的多目标跟踪方法获得了越来越多研究者的关注。密集人群场景下的多目标跟踪是一个具有挑战性的课题,基于检测的多目标跟踪(Tracking by Detection,TBD)相较于不使用检测的多目标跟踪(Detection Free Tracking,DFT)在这一场景下有更好的性能表现。TBD框架使用数据关联算法将检测器提供的目标检测
随着智能化、信息化进程在电网公司的不断推进,信息系统的建设成为了业务系统中非常重要的一环。在信息系统的运行过程中,产生了大量的主机指标数据。公司现有的运维方式难以从海量的主机指标数据中快速、高效地分析出有用信息,无法保障信息系统的稳定运行。基于此,本文从主机指标数据的预测角度出发,设计并实现了基于时序数据挖掘的电网主机指标预测系统。该预测系统能对信息系统中的主机指标数据进行短期预测并将结果可视化,
时空轨迹是移动对象的在一定时间序列下的运动记录,时空轨迹具有丰富的时间、空间和语义特征,时空轨迹的时空特性和潜藏的语义价值使得时空轨迹挖掘成为数据挖掘领域具有挑战的前沿研究分支。时空轨迹聚类是时空轨迹数据挖掘的重要研究内容之一,旨在挖掘出具有相似特性的轨迹簇,可应用于轨迹预测、异常检测等方面。然而时空轨迹数据数量大,数据内容和结构复杂,时空轨迹的本质特征隐藏于海量冗余信息中,处理流程极复杂。此外,