复杂室内场景三维目标文本描述方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ktaxx01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术在计算机视觉和自然语言处理领域的广泛应用,越来越多的学者将目光聚集到二者的交叉领域上来,图像描述、视觉搜索等基于二维数据的相关任务都取得了令人瞩目的发展。近些年来,三维传感技术的进步推动了三维视觉的革命性发展,对点云形式的三维室内场景数据的研究也逐渐成为当前的研究热点。目前,已经有相关工作致力于链接三维视觉和自然语言处理两个领域,相关数据集和优秀工作的提出,为在三维环境下的跨领域、多模态的任务提供了发展的基石。用于视觉信息向文本信息转换的描述任务在无人系统、幼教助残等方向拥有这广阔的应用场景和很大的现实意义。本文致力于对复杂三维室内场景中的视觉信息进行研究,通过特征的提取和模态之间的转化,实现目标物体的定位和对应物体的自然语言形式的文本描述生成。以三维目标的文本描述生成为最终任务,本文首先对三维点云和文本编码等相关领域做知识储备。然后研究并完成了以下两点核心任务:场景下三维目标特征提取和定位任务、三维目标描述文本生成任务。最后基于这两个任务提出了端到端的复杂室内场景三维目标文本描述生成方法。核心任务的具体工作如下:(1)复杂室内场景下的三维目标检测网络。本部分首先对较新且效果较好的三维目标检测网络——Vote Net做出分析,指出其不能充分利用三维场景数据和生成目标时相对孤立的局限性,并以此提出改进的Vote Net网络。在数据使用的过程中,本文将数据中包含的多视角特征通过二维到三维的投影融合到网络中;在候选物体生成的过程中,本文使用图结构将场景内物体之间做出关联,原本孤立的候选框生成步骤中添加了环境的上下文信息。通过实验证明,用交并比大于0.25的平均精确率的平均(m AP)计,本文的三维目标检测网络性能比基于原始点云的方法Vote Net网络高9.07,比基于多视图投影的方法3DSIS 5views高23.27。(2)三维目标描述文本生成网络。本部分以特征提取和目标检测部分输出的包含有目标特征的视觉信息为输入,完成将视觉信息向文本信息转化的过程。由于用于三维物体描述的工作还较少,本章首先提出基于GRU的简单基线模型,然后提出基于融合上下文信息的描述文本生成模型(CGMC-Net)。CGMC-Net综合考虑包括目标和全局特征在内的多维度视觉特征,在描述生成过程中使用有先验知识学习能力的注意力模块,实现了并行的效果较好的三维目标描述生成模块。通过实验验证,以交并比大于0.5的CIDEr指标计,CGMC-Net的描述生成结果比基于GRU的高1.18个百分点。最后本文通过网络策略,将目标检测和描述生成网络相结合,实现了端到端的复杂室内场景三维目标文本描述方法,通过实验验证,CGMC-Net的描述结果以交并比大于0.5的CIDEr指标计达到42.41%,与非端到端的实验结果相比提升7.91个百分点。
其他文献
作为遥感技术的前沿发展方向,高光谱遥感光谱分辨率高,可精细化区分、辨识地物目标。但高光谱图像存在数据量庞大、波段信息冗余多、波段存在噪声污染等问题,影响后续数据处理的计算效率和精度。波段选择作为一种数据降维方式,可从原始波段数据中选取一组具有代表性的波段集,既能有效减少波段信息冗余,降低计算量,又能保留高光谱数据波段的原始光谱特征和物理意义。基于此,针对高光谱波段选择中波段评价和波段搜索两个问题,
学位
通过实时控制目标表面温度的变化,使得目标的红外辐射特性同周围背景的红外辐射特性保持一致或近似,是红外伪装的重要手段,如果能够根据外界环境的改变而自动进行调整则具有更好的伪装效果。近些年自适应红外伪装系统已逐渐成为红外伪装领域的研究热点,引起了国内外学者的广泛关注,在新型红外伪装材料和自适应红外伪装系统设计方面进行了大量的研究。但是在如何利用周围环境模拟被目标所遮挡背景区域红外辐射特性方面的研究较少
学位
高光谱成像通过将成像探测技术与光谱探测技术有效结合,利用几十甚至上百个近似连续光谱波段对同一探测区域进行成像,从而获得包含多种空-谱信息的三维高光谱数据。高光谱异常检测由于无需目标先验光谱知识便可检测到与背景有较大差异的异常目标,在环境、农业、水文、军事等多个领域有着广泛的应用,已经成为高光谱图像处理中的一个重要方向。本文针对当前部分异常检测算法对于高光谱图像多种特征利用不足的问题,从有效挖掘异常
学位
光学稀疏孔径望远镜是下一代深空探测的主要手段。光学稀疏孔径利用分立的子孔径,通过光束合成等效达到大孔径系统的分辨率效果,克服了单孔径系统存在的大尺寸镜面加工难度大、自身重量增加带来的曲率变化等限制因素,还具有可变换孔径排布、灵活变换基线等优点。稀疏系统要求子孔径共相,但是光束合成误差的存在会阻碍这一要求。本文针对子孔径间活塞误差和倾斜误差对光束合成的影响,进行理论和实验研究。对不同填充因子和子孔径
学位
随着低慢小航空器在航拍摄影、交通运输、军事侦察等领域得到广泛应用,处于非监管状态下的低慢小航空器威胁公共安全的事件也时有发生,因此,能够用于该目标的预警手段及设备得到了更大范围的关注与发展。在可见光成像领域,常用长焦成像系统拍摄远处目标,但传统的长焦成像系统由于受到制造以及成本所限,大多采用定焦模式,因此其成像视场比较受限,难以在大范围针对目标进行快速检测识别,从而达到理想的预警效果。针对以上问题
学位
周视激光引信探测精度高、体积小,抗电磁干扰能力强,近年来在防空导弹中应用逐渐广泛。对激光引信的实际数据采集成本高、周期长,因此实验数据不足。为了提高激光引信探测精度,增添回波信号数据,可对激光引信回波信号数字化仿真,研究影响发射脉冲激光、目标表面特性、探测距离等参数对回波信号的影响,进一步提高激光引信的抗干扰能力,提高导弹整体的杀伤能力。本文主要研究周视激光脉冲引信与预制破片战斗部的引战配合,对弹
学位
总剂量辐照效应会对核辐射环境中的电子器件造成损伤,对数字器件进行计算机仿真模拟可以为器件的抗辐照加固提供理论支持。为了对数字器件的总剂量辐照效应进行仿真,首先需要获取数字器件的仿真模型。现今对数字器件进行总剂量效应建模的方法主要有两种,分别是物理建模方法和行为级建模方法。物理建模方法仿真精确度高,但是计算成本大,可扩展性弱。行为级模型使用简单,仿真效率高,可扩展性强,适用于数字器件的总剂量效应建模
学位
遥感已被广泛地应用于土地覆盖分类、环境监测、军事防御等领域中。单一传感器信息既有一定的局限性,又存在着极具潜力的互补性。融合算法可以实现多源遥感图像的互补信息提取,但是,会遭遇目标信息不显著和噪声鲁棒性低等问题。本文以解决融合算法的稳定性问题、提高融合图像的质量为目标,深入研究基于GramSchmidt变换和全变分方法的像素级、特征级融合技术。本文主要完成工作如下:首先,针对传统像素级图像融合方法
学位
空战形态由过去的机械化向信息化、智能化转型。快速准确地预测出对方战斗机的飞行轨迹可使本方在近距对抗中占据有利的态势。然而战斗机状态的多样化、空战态势的不确定性以及空战的高动态性等导致飞行轨迹预测算法存在预测精度低、预测实时性低等问题。这些预测方法通常仅根据单个战斗机的历史轨迹进行预测,忽略了在作战过程中各个战斗机之间的相互制约、相互限制的关键信息,导致预测结果与实际轨迹相差较大。因此为充分考虑战斗
学位
智慧安防是智慧城市的重要领域之一,在安防监控、无人零售等方面发挥着关键作用。随着高清摄像头的普及,视频监控系统已经成为智慧安防领域的核心组成部分。然而监控图像易受雨、雾、霾、沙尘等恶劣天气的影响,导致清晰度下降、颜色失真等问题,严重降低车牌识别、人员检测等的准确度。现有针对恶劣天气下监控图像清晰化的研究主要面向雨、雾、霾等场景,由于沙尘天气中悬浮沙粒对光具有吸收、散射作用,引起偏色严重、锐度下降等
学位