基于小样本学习的多媒体内容分析研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:jakieli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习模型已经在图像分类和目标检测领域取得了丰硕的成果,但在一些特殊场景中受限于无法获得大规模的标注数据,导致算法模型的效果不能得到进一步的提升。因此,利用少量样本数据进行有效的学习,对于研究者们来说是一个非常有价值的研究课题。本文主要围绕小样本条件下的图像分类和目标检测问题,对现有的小样本分类和检测算法模型进行深入的研究。基于这样的思路,本文的主要工作和贡献如下:(1)目前的一些度量学习方法提取得到的图像特征是单尺度的,忽视了图像的细节部分,没有得到图像的所有全局信息。针对现有方法模型存在的问题,本文提出了一种基于多分支卷积网络的小样本学习分类方法。该方法选取了不同大小的卷积核,引入多条分支进行特征提取。同时,引入了通道注意力机制来获取每个特征通道的重要性,强化包含重要特征的通道,并抑制包含无用特征的通道。受人类视觉系统的启发引入了感受野模块,通过添加不同尺寸的卷积核以及膨胀卷积,实现了每个块中卷积核采样点的更均匀分布。实验表明,在Omniglot数据集上,本文方法的分类准确率在5-way 1-shot和5-way 5-shot任务上分别达到了99.7%和99.8%。在mini Image Net数据集上与多种算法进行对比实验,将5-way 5-shot实验的性能提高了3.67%。至于5-way 1-shot实验,本文算法提高了1.84%,充分证明本文算法的有效性。(2)小样本情况下,新的待检测的目标的数量有限,得到的候选区域中会出现许多与目标不相关联的情况,同时新类样本与基类样本尺度空间的不同以及支持集图像和查询集图像之间的差异性也给小样本图像目标检测带来一定的挑战。针对上述问题,本文沿用二阶段的检测方法,提出了一种基于特征融合的小样本目标检测算法(Few-Shot Object Detection Based on Feature Fusion,FF-FSOD)。针对新类别样本数量少的问题,采用特征融合的方法进行数据增强,对新类别样本进行补充,增加样本的覆盖范围。针对样本类别的尺度存在差异的问题,引入了特征金字塔网络(Feature Pyramid Network,FPN)进行多尺度特征提取。针对小样本条件下较难获得高精度的候选框的问题,对区域候选网络(Region Proposal Network,RPN)进行改进,引入支持集图像分支,计算支持集图像特征与查询集图像特征的深度互相关性,得到注意力特征图,进而获得更精确的候选框。在MS COCO和FSOD数据集上均有良好表现,验证了所提出的算法结构FF-FSOD的有效性。
其他文献
随着互联网技术以及通信技术的飞速发展,移动通信系统已经迈入5G时代并朝着6G研发阶段快速前进,物联网以及车联网的使用也会越来越广泛,伴随而来的是全网的通信带宽以及算力的大幅提升,这给云计算、边缘计算和任务卸载提供了发展的必要条件。但同时对网络中的计算或带宽资源的分配提出了更高的要求。在一些对性能要求较高的场景中,对资源优化的需求就更加强烈。在万物互联的时代,服务机器人的应用变得越来越广泛,室内服务
学位
边缘计算(Edge Computing)作为一种全新的计算范式,通过在靠近用户设备端部署具有一定计算能力的计算设备,实现为用户提供直接相连的高带宽、低延迟、高效率的计算应用服务。边缘计算场景下的任务执行可能会由分布在不同物理空间的计算单元协作完成,使得任务中各模块间的依赖性关系对于任务的有效执行具有较大影响。因此当复杂应用程序的服务请求到达边缘计算系统后,如何根据依赖性关系将任务各模块划分成便于计
学位
连续大气偏振模式伴随太阳位置改变呈现出沿太阳子午线对称变化的特性,该模式作为大气物理属性,所携带的时空信息不易受到天气与电磁的干扰,在导航与探测等领域具有重要的应用。为解决连续大气偏振数据采集过程中存在数据不连续、特征获取不完整的问题,本文从信息处理角度出发,分析大气偏振模式分布变化规律,利用深度学习技术设计了不依赖于环境参数的大气偏振数据预测模型及偏振特征重构模型,保障采集数据的连续性与特征完整
学位
随着煤矿业的发展,矿井深度逐年提高,热害逐渐成为矿井的主要灾害之一。热害的及时预警作为热害防治的第一步尤为重要。人体长期在高温环境中工作会降低人体热舒适度并对身心产生伤害。我国国家标准《煤矿井下热害防治设计规范》中规定采煤工作面的等效温度不应该超过28℃。等效温度是温度、湿度和风速的综合体现,能更科学、准确反映人体的热舒适度。作为评价矿井是否发生热害的标准,矿井中能否实时获取等效温度的数值在热害的
学位
时序动作定位需要在未剪辑的视频中找到所有与人有关的动作,不仅要确定动作发生的精确时间还要确定其类别。弱监督时序动作定位使用视频级的类别标签作为监督信号,相比于全监督的方式标注成本低,其视频中只有少数同一类别的动作片段。现实生活中的视频动作实例更多,且同一时间会发生多种动作,弱监督的方法难以建模密集分布的动作实例之间的复杂时序关系。故本文对弱监督时序动作定位和多标签时序动作定位进行研究,具体工作如下
学位
随着无线网络的飞速发展,移动互联网、物联网以及虚拟现实等各种新兴业务的出现对现有网络环境的时延和可靠性提出了挑战,同时,移动设备的大规模连接也带来了更高的资源需求,计算密集型应用程序和资源受限的移动设备之间的矛盾为获得令人满意的服务质量和服务体验带来了瓶颈。为了能够更好地满足这些新兴业务的需求和特性,推动移动通信网络的发展,设计有效的面向低时延需求的无线资源分配方案已经成为了非常重要的研究课题。本
学位
近三十年来,相干斑抑制方法在合成孔径雷达(SAR:Synthetic Aperture Radar)图像中得到了广泛的应用。SAR图像中斑点噪声的存在严重降低了图像的可解释性,并对后续的目标检测、分类和识别等常见应用产生很大影响。因此,需要采用相干斑消除方法来提高SAR图像的质量。目前,国内外许多学者都致力于SAR图像斑点噪声的抑制,并提出了大量抑制图像斑点噪声的算法。大多数方法都是通过使用过滤窗
学位
呼吸率是衡量人体健康状态的重要生理参数之一,呼吸率检测在医院健康监护、灾害现场伤情判定以及家庭健康监测等场景有着广泛应用。基于视频的呼吸率检测方法成本低廉、拓展性强,已成为人体呼吸率检测领域的研究热点。现有的呼吸率视觉检测方法在人体侧躺、平趴等多种姿态下,难以准确地提取出呼吸信号,不能实际应用于家庭健康监测等场景。因此,多种姿态下的人体呼吸率视觉检测方法具有重要研究价值。针对上述问题,本文具体工作
学位
沉浸式多媒体,包括全景视频和虚拟/增强现实(Virtual Reality,VR/Augmented Reality,AR)视频,最近随着沉浸式应用需求的增加而变得越来越流行。视角(Field of view,FoV)预测作为新兴的VR和AR应用的一个重要组成部分,在全景视频自适应传输中至关重要。目前大多数结合了显著性检测和FoV信息的预测方法既没有考虑到全景视频投影后的失真会使传统卷积网络的权重
学位
基于视频的振动检测技术具有非接触式、低成本以及支持全场测量等优势,在大型建筑的结构安全检测、机械设备的运行状态监测等领域有着广阔的应用前景。固定相机受到部署位置、测量视角等限制,难以实现针对大跨度及高层建筑的振动测量。随着无人机技术的发展,无人机载相机提供了一种更为灵活的视频振动检测手段。然而,在悬停拍摄的过程中,无人机受到环境气流影响会产生随机晃动,进而影响到所采集视频的质量以及最终的振动检测性
学位