【摘 要】
:
目标检测技术在计算机视觉扮演着根本性的作用,是许多高级视觉任务的基础,同时在许多场景中得到大规模的应用,像智慧城市、智慧医疗、智慧农业等。虽然随着近些年深度学习的发展,目标检测的性能得到显著的改善,但是现有方法依然面临着目标尺度及场景多样复杂性的挑战。本论文针对现有目标检测算法的不足,分别从网络结构及损失函数两方面提出具有现实意义及原创性的算法。一方面,现有的目标检测算法一直面临着对小尺度且模糊的
论文部分内容阅读
目标检测技术在计算机视觉扮演着根本性的作用,是许多高级视觉任务的基础,同时在许多场景中得到大规模的应用,像智慧城市、智慧医疗、智慧农业等。虽然随着近些年深度学习的发展,目标检测的性能得到显著的改善,但是现有方法依然面临着目标尺度及场景多样复杂性的挑战。本论文针对现有目标检测算法的不足,分别从网络结构及损失函数两方面提出具有现实意义及原创性的算法。一方面,现有的目标检测算法一直面临着对小尺度且模糊的目标检测困难的问题。本文提出了一种反卷积及卷积级联结构对特征进行增强,来提升目标的检测的鲁棒性。反卷积及卷积级联结构先通过反卷积对特征进行上采样操作来放大目标的细节,再进行卷积操作来完成对目标细节特征的保留,之后采取双螺旋连接来进一步更好地对特征融合,提高特征的丰富性。另一方面,目标检测的矩形目标框不能更加完美地表示复杂的目标的位置。现有的旋转目标检测采用了带有角度的矩形框来定位具有不同角度的目标。现有的旋转目标检测算法通常使用的距离损失函数与基于交并比的评估方法存在一些鸿沟。为了消除以上鸿沟,本文从单个像素的角度提出了一种高效的且简单的像素交并比损失函数,直接优化旋转目标框的交并比。最后为了验证我们算法的有效性,我们在不同的主流数据集上进行了大量的实验。实验结果表明,我们的算法能够明显地提升目标检测的效果,尤其对小尺度、模糊的目标。同时,我们提出的像素交并比损失函数,能够大幅度地改善目标定位的精确度,尤其对具有极端的长宽比的目标。
其他文献
人体目标的身份识别是无人商店应用场景中的一个重要环节,从用户入店时的身份验证,再到店内的用户身份识别,需要同时保证识别的实时性和准确性。首先,相对于传统的目标检测与跟踪的解决思路,借鉴“仅看一眼就知道目标分类”的YOLO目标检测思想,以YOLO算法和图像特征识别算法为基础,提出了“仅看一眼就知道是谁”的研究思路,设计了室内监控对象身份识别模型。其次,对VOC数据集进行重新标注,使得标注后的数据集包
随着硬件设备、网络传输的不断发展,多媒体内容已经成为我们日常生活的重要组成部分,人们可以随时随地通过各种便携式显示设备观看图像/视频。图像/视频内容通常是在考虑特定目标分辨率的情况下制作的,而不同的显示设备往往没有统一的长宽比。图像/视频重定向技术就是将图像/视频适配到目标屏幕上进行更好的播放。但是目前所广泛采用的朴素的重定向方法缺乏了对图像/视频内容特性的考虑,都有着不同的本质上的缺陷。因此,基
对于图像去噪问题的研究长期以来都在计算机视觉领域中占据十分重要的地位,这是因为基础图像的质量将在很大程度上制约后续图像信息处理的效果。图像噪声的类型多种多样,而高斯噪声的特性使其成为图像去噪算法研究中最为核心的一种,本文的研究重点也正是图像的高斯去噪问题。过去传统的图像高斯去噪方法建立在图像先验知识模型的基础上,这依赖人的经验,可能导致在建模的过程中难以利用到图像的一些高级特征,存在一定的局限性。
随着VR技术的发展,VR游戏逐渐盛行,线下出现了一批VR体验店、VR自助机,同时也有越来越多的VR游戏爱好者,入手VR设备开启VR游戏。游戏发展到一定阶段也往往伴随着游戏平台客户端的产生,但是当前VR游戏市场不健全,玩家挑选游戏耗时费力,VR游戏运行需要安装各类插件,入手难度高;以及账号过多难以管理,游戏的下载、安装更新比较繁琐,这时一款合适的VR游戏平台客户端显得尤为重要。国内VR游戏客户端如造
近年来,目标检测在智能安防、智慧城市、智能工厂、智能汽车等多个领域应用广泛。由于目标检测的核心技术是深度学习,所以目前大多数的目标检测模型部署在服务器端,但这种方式存在两个弊端:一是随着部署的需求量骤增,大量配置高性能服务器在经济上会造成巨大压力;二是摄像机等边缘设备采集的待检测数据需要经过网络传输才能到达服务器,当数据量非常庞大时会影响到检测的时效性。随着边缘设备的日渐流行,其小体积、高性价比、
自人工智能技术发展以来,各领域都在寻找有利的结合点,最近几年,人工智能技术也不断涌现出与医疗领域结合的趋势,同时大量的数据资源、快速的计算能力、算法的不断优化等基础准备的成熟与创新也成为发展医学领域智能化技术的重要基石。在这种趋势下,我国医疗智能化的发展面临着前所未有的机遇和挑战,图像和语音技术的成熟为医疗行业带来新的机遇,但是由于语言的复杂性使得自然语言处理在医疗领域的应用仍然面临着诸多挑战。例
行人再识别是智能监控研究的重点之一,它是利用计算机视觉相关技术,判断不同摄像头间非重叠区域是否存在同个行人,进而可实现可疑人物的快速检索、预测异常事件等相关分析。然而在实际应用场景中,由于存在光照变化、背景杂乱、行人姿态多样以及遮挡等问题,行人再识别研究存在诸多挑战,引起学术界和工业界广泛关注。如何提取更鲁棒且可区分度高的行人特征以提高行人的识别效果,成为该课题的研究核心之一。利用手工设计得到的特
随着物联网的发展,边缘计算已成为时下的研究热点之一。边缘计算是在靠近用户或数据源头的网络边缘,包含了网络传输、计算任务、数据存储存储和应用等功能的平台,其核心在于将部分计算、网络或存储任务从云计算中心转移到边缘设备上。相比云计算,边缘计算具有更实时、更快速的数据处理能力和响应能力,部署成本更低,对网络带宽的压力也更小。但是,传统的边缘计算框架也有其潜在的问题。由于边缘节点承担了一部分计算任务,云平
资源描述框架(RDF)作为表示和记载图结构数据的技术规范之一,被广泛应用于知识图谱、社交网络、金融风控等场景。用户使用RDF图查询系统进行信息检索,发掘图数据集中特定的信息。随着人类进入大数据时代,实际场景中的图数据集正变得日益庞大。海量数据给RDF图查询系统带来了存储效率上的挑战:如何在保障系统性能的前提下提升系统的存储效率,用更少的空间存储更多的RDF图数据,降低系统运行的硬件成本,成为学界和
资源描述框架(RDF)是W3C组织制定的一个标准数据模型,用来表示万维网上的关联数据。RDF将相互关联的数据描述成一系列的三元组,这些三元组构成一个高度连通的图(RDF图)。用户可以通过SPARQL查询语言检索RDF数据。在线图查询是访问关联数据的重要方式,其目标是在图数据中找到符合查询约束条件的顶点集合。图查询任务可以分为两种类型:小查询和大查询。小查询在执行时只需要遍历一小部分顶点和边,而大查