【摘 要】
:
近年来,语义解析是计算机视觉研究领域的热门方向。通过卷积神经网络学习视觉信息的深层表达,该方法已经趋于成熟,但是视觉信息的高维特征向量表达与人类对视觉信息的理解存在差异。因此,对视觉信息进行语义解析能提高人机交互的效率,提升机器人、视觉检索等系统的可解释性。对视觉信息的语义解析,离不开视觉特征的学习与优化。本文针对困难样本在特征学习中难以收敛的问题,研究了基于神经网络的困难样本学习算法。针对视频信
论文部分内容阅读
近年来,语义解析是计算机视觉研究领域的热门方向。通过卷积神经网络学习视觉信息的深层表达,该方法已经趋于成熟,但是视觉信息的高维特征向量表达与人类对视觉信息的理解存在差异。因此,对视觉信息进行语义解析能提高人机交互的效率,提升机器人、视觉检索等系统的可解释性。对视觉信息的语义解析,离不开视觉特征的学习与优化。本文针对困难样本在特征学习中难以收敛的问题,研究了基于神经网络的困难样本学习算法。针对视频信息中的有效特征提取问题,通过自定义特征评价函数与特征寻优算法获取了更有效的视频特征表达。在视频描述问题中,利用特征提取与学习方法完成对视觉信息的语义解析。本文的主要贡献如下:1、特征学习是有效解析视觉语义信息的基础。本文针对困难样本在深度哈希算法中难以收敛以及过多的困难样本产生的噪声干扰问题,提出一种通过损失决定梯度的哈希特征学习策略。首先,提出一种非均匀梯度归一化方法,通过计算困难与整体样本损失的比例,对整体样本反向传播梯度进行加权,提高模型对困难样本的学习能力;进一步,针对存在过量困难样本的情况,设计了一种加权随机采样方法,根据损失大小对样本进行加权欠采样,滤除噪声并保留少量的困难样本避免过拟合。基于公开数据集,哈希特征检索平均精度分别提高4.7%与3.3%。实验结果表明,该策略改进的哈希算法准确率优于对标哈希算法,能更好地学习到数据集中困难样本的特征信息。2、特征优化能提高特征向量与人类语义理解的关联性。为了获得不受角度和光照模糊影响的视频人脸识别特征,本文提出一种基于最小关系距离误差的特征寻优算法。首先,针对传统平均池化方法在特征融合时无法有效区分特征重要程度的缺陷,本文通过分析静态人脸特征提取模型中的神经元和连接权来评估特征的有效信息量,结合有效信息量和两两特征间的关系构造关系距离误差评价函数,有效区分不同人脸图像特征在融合时的重要性;然后,基于该评价函数提出一种无监督特征寻优算法,通过评价函数的反馈信息自动修改特征融合时的权重,降低干扰图像特征的权重从而获得更有效的人脸视频融合表征。本文方法相比较于平均池化方法,在YTF、IJB-A、IQIYI数据集上的首位命中率分别提高了1.03%、3.48%、2.44%。实验证明,本文方法能更有效地提取人脸图像集合特征,有助于提升视频人脸识别的识别精度。3、基于短视频的描述算法通常将整个视频作为时序特征输入,忽略了不同时段之间的语义差异,导致时序语义冲突。本文提出一种时序语义特征分割算法,首先采用卷积神经网络获取视频每一帧的特征表达,构成视频特征集合。然后,根据时序相邻特征的相似度进行特征聚类,保证同类特征子集拥有相同的主语特性。接着,根据特征子集与视频特征集合的占比过滤噪声特征。最后,通过特征评价函数选择语义最恰当的子集作为视频描述算法输入特征。在MSVD、MSR-VTT数据库中,本文METEOR指标相对于参考方法分别提高了1.19%和2.53%。实验证明,本文方法能有效地分割视频时序特征,提高视频描述准确性。
其他文献
超声振动管材液压成形技术是在管材液压成形技术的基础上结合超声振动进行的,具有成形载荷低,填充性和贴模性好,壁厚均匀,成形质量高等特点。目前,超声振动管材液压成形的规律尚不清楚,开展成形规律的研究可以有效的描述管材的成形过程,分析管材的成形原理,进而能够合理的选择工艺参数,有效的抑制或消除成形缺陷,提高管材的成形性能,所以本研究具有重要的理论意义与应用价值。本文采用试验与仿真相结合的方法,开展了超声
随着雷达技术的发展以及雷达探测能力的不断提高,对于目标雷达散射截面积(Radar-Cross Section,RCS)的精确预估和测量变得越发重要。基于三维成像的RCS测量技术是近年新兴的一种真实、高效、灵活性更高的RCS测量技术。该技术通过对目标三维高分辨率成像,实现目标与背景噪声的分离,再通过近远场变换算法,得到目标的精确RCS。基于成像的RCS测量,其成像精度就直接影响着RCS的测量精度。而
随着人们生活水准的升级,小型乘用汽车作为一般商品逐步进入到各家各户中,乘用车安全日益引起消费者的重视。毫米波雷达在日常使用的主动安全装置占有重要地位,广泛应用于前向防撞、变道辅助、盲点检测等场景。针对车载毫米波雷达不同的应用对天线有不同的设计要求,本文分别设计了两款应用于前向防撞的高增益阵列天线和一款应用在乘用车防撞角雷达的宽波束阵列天线。具体的研究内容如下:1、77GHz前向汽车远距离防撞雷达S
逆合成孔径雷达(Inverse Synthetic Aperture Radar,ISAR)可以在全天候、全天时进行工作,完成对非合作目标的高分辨成像,是重要的雷达体制之一。频率分集ISAR作为一种新型的逆合成孔径雷达可以通过在每个观测时刻发射不同频偏的单频信号来获取目标的散射信息,可以克服传统ISAR宽带收发机复杂的问题。由于频率分集ISAR在每个观测时间内发射单频信号无法形成有效的距离像,相对
随着互联网的快速发展,信息过载现象日益严重,用户如何快速地找到需要的信息变得越来越困难。推荐系统能够精准的将信息推荐给用户,是解决上述问题的重要工具。神经网络具有强大的特征提取和特征建模能力,被广泛应用在推荐系统中,然而,神经网络学习的特征和传统的算法融合时,统一权值融合用户或项目的特征,会导致模型的性能受到限制。针对上述问题,本文分别对自编码建模的项目特征和深度神经网络建模的高阶特征进行元素级别
随着网络覆盖全球化的推进,水下平台与空中平台的跨介质激光通信成为近几年的热点研究领域之一。在该类通信中,信道由海水、海/气界面及大气组成,因其成分复杂,对光束传播的影响因素众多,到目前为止,尚无公认的跨介质信道模型。因此,保障跨介质激光通信的稳定性、可靠性仍然是一个极具挑战性的课题。现有的激光跨介质通信研究存在以下问题:(1)在垂直链路水下光通信中将海水设定为均匀介质;(2)在大气信道研究中,尚无
基于能量检测的非相干MIMO空分复用技术不需要精确实时的信道状态信息解调信号,且具有抗随机相位干扰、对多普勒频偏不敏感的特性,成为高速移动环境下实现大容量、高可靠通信的关键技术之一。多用户MIMO技术可以采用空分多址的方式在相同的时频资源上与多个用户进行通信,成倍地提高通信系统的容量和频谱利用率。现有的关于非相干多用户多天线检测技术的研究主要针对多用户SIMO上行系统,即使少部分文献研究了非相干多
交通标志在引导安全行驶、缓解城市拥堵、减少交通事故等方面都发挥着至关重要的作用。在智能驾驶系统中,交通标志的检测与识别一直以来都是研究的重点和难点。随着深度学习技术的日渐成熟,卷积神经网络越来越多的应用于交通标志的检测领域,且在环境良好的交通标志数据集中取得了不错的成果。但在真实的道路场景中,交通标志易受到复杂环境的影响,如天气、遮挡、光照等。此外智能车捕获的往往是全景图像,交通标志在全景图像中占
由于互联网行业的快速与蓬勃发展,已经出现了各种各样需求不一的业务,如车联网行业、远程医疗、智能家居、5G工业等,不一样的业务对带宽、时延、存储等需求也有所不同。僵化的传统底层网络已经不能灵活的满足这些新兴网络业务的需求,因此网络切片技术应运而生。凭借软件定义网络(SDN)与网络功能虚拟化(NFV)技术,可以快速部署和集中管理网络切片,从而简化管理、提高资源利用率和降低成本。本文首先研究了基于SDN
通信系统带宽的增加对其构件的性能提出了巨大的需求。模数转换(ADC)器芯片作为通信设备中的关键构件,近年来随着5G网络的逐渐普及,需要更加高速、低功耗、高精度的ADC芯片。因此,不管在工业界还是学术领域对高速ADC的研究都是一个吸引力较强的课题。而得益于半导体工艺的进步,器件尺寸、速度等性能的提升,使得具有功耗低、结构简单及占用面积小等优点的逐次逼近型(SAR)ADC脱颖而出,可以满足高速低功耗A