【摘 要】
:
随着计算机技术的快速发展以及互联网的普及,人们获取信息变得越来越方便。同时,信息的数量飞速增长,其种类也越来越多。最初的信息形式为文本、数字等,现在发展为图像、声音、视频等各种多媒体信息。其中,三维模型作为虚拟现实等技术的基础,使用范围变得越来越广泛。相比于图像视频,三维模型作为一种新的信息媒介在很多领域都发挥着重要的作用。目前三维模型已经被广泛应用于工业产品设计、影视动画、电子商务、文物保护、城
论文部分内容阅读
随着计算机技术的快速发展以及互联网的普及,人们获取信息变得越来越方便。同时,信息的数量飞速增长,其种类也越来越多。最初的信息形式为文本、数字等,现在发展为图像、声音、视频等各种多媒体信息。其中,三维模型作为虚拟现实等技术的基础,使用范围变得越来越广泛。相比于图像视频,三维模型作为一种新的信息媒介在很多领域都发挥着重要的作用。目前三维模型已经被广泛应用于工业产品设计、影视动画、电子商务、文物保护、城市规划、虚拟现实、分子生物学等领域。随着三维数据获取成本的降低和许多应用需求的增加,三维模型数据大量产生,其中一部分可共享。如何对三维模型进行有效的分析,是近年来研究的热门课题。
在众多分析方法中,将三维模型表示为多视角图片和表示为点云的方式效果尤为突出。而多视角图片的表示方法由于能够应用到当前计算机视觉中的优秀图像处理网络,而成为现今较为经典的表示方法。在三维模型的分析任务中,最为重要的是三维模型的分类与检索。
本文基于三维模型的分类与跨域检索两个任务提出两个算法框架。
1.利用多视角的三维模型表征方法,针对视角图片信息及视角间的关联信息提出一种多模型融合的三维模型分类方法,包含卷积神经网络(CNN)与长短时记忆网络(LSTM)两分支子模型,并加入注意力机制,有效提取重要表征信息。此三维模型分类任务在ModelNet40上的实验以及与其他分类方法的横向对比证明了该结构的有效性。
2.针对三维模型检索,结合日常需要,我们提出一种基于图片的跨域检索方法,对图片域与模型域的特征进行域内区分学习与域间联系学习,并在以SHREC为主的多个数据集上进行实验,实验结果证实了整个框架在跨域学习上的有效性。
其他文献
单目标视觉跟踪是视觉跟踪领域中最基础的问题。它旨在根据给定目标的初始位置和初始信息,在随后的视频序列中估计目标的位置和尺度变化,以便完成更高级的任务。视觉跟踪任务的难点首先在于可获得的关于给定目标的训练数据非常有限。其次,跟踪模型面临现实应用场景中存在的遮挡、形变和尺度变化等诸多挑战。最后,视觉跟踪任务对处理速度的要求进一步提升了算法设计的难度。基于相关滤波的跟踪算法根据样本近似循环的特点,利用循
随着海洋在沿海国家的战略地位不断提升,对领海范围进行监测变得越来越重要,为了实现对领海范围内目标的监测,在国家重点研发计划基金的支持下,设计并开发了海上目标监测系统。海上目标监测系统是以任务为主线,利用无人机和卫星资源实现对海上某一段时间、要求成果类型、某一区域内目标的监测,系统主要包括无人机和卫星任务的规划,无人机拍摄视频的直播与回放,二三维地图的联动查看等功能。 系统采用前后端分离的开发模式
印前检测与校正是稿件印刷前的最后一道工序,此过程会检测稿件中的多个印刷参数,确定其是否符合印刷要求,对于不符合印刷要求的稿件进行校正,避免印刷阶段出现错误,此过程也是印刷领域的研究热点和难点。目前印前检测与校正领域存在以下几个难点:稿件检测项目较少且准确度不高,不支持对稿件错误项目进行修正或其他写入操作。检测与修正过程无法实现自动化,仍然需要人工处理每一份稿件。缺乏高效的稿件处理结果校验算法,依赖
随着互联网和多媒体技术的快速发展,图片数据呈几何式增长。其中有一些图片令人们印象深刻,有一些图片却容易被人们忘记。近些年来,研究者们发现这种现象可用图像可记忆度解释,图像可记忆度是图像的固有属性,旨在描述一张图片能够被人记住的程度。目前,对图像可记忆度的研究主要有两方面,一方面是研究影响图像可记忆度的因素,另一方面专注于对图像可记忆度的预测。现有的很多图像可记忆度预测方法通过简单的特征串联表征图像
虽然数码相机拍摄画质日益提升,在低光照或者高感光(ISO)模式下拍摄图像仍会不可避免的引入噪声。而且在很多情况下,需要调高相机的ISO进行拍摄,例如夜间拍摄或者捕捉快速运动的物体。该类实际噪声在空间分布和颜色通道上具有相关性,远比高斯噪声复杂,所以传统的高斯去噪算法难以有效去除该类噪声。鉴于此,本文从盲去噪的角度分析,充分利用卷积神经网络(Convolutional Neural Network,
近年来,随着电子技术的飞速发展,阵列信号处理逐渐成为当前信息处理领域一个热门问题。阵列信号处理主要研究空间分布传感器阵列信号的信息处理问题,波束生成技术是阵列信号的基础,被广泛应用于通信雷达、图像处理、电力、机械振动、医学等领域。阵列信号处理所对应的信号分解和信号重构问题分别是空间谱估计和波束生成,但是在信息科技的发展过程中也不可避免的遇到了阵元间耦合效应加剧影响性能和软硬件成本提高这两个瓶颈问题
场景分割在智能驾驶中有广阔的应用前景,目前针对智能驾驶领域的场景分割算法主要依靠语义分割实现对场景中物体的识别和理解。针对场景中目标物体的类别可以将其划分为两类:基于所有物体的场景分割和以人为核心的场景分割。 在场景分割算法的设计上,提取具有判别力的上下文信息是关键。因此,本文首先提出了一种基于稠密金字塔和协同学习的语义分割模型,由局部上下文金字塔模块和全局上下文金字塔模块级联形成的稠密金字塔,
随着社会的不断发展,大量的视频监控被用于维护社会的公共安全。然而,视频监控虽然为公安部门提供了很多珍贵的线索,但是通过人工的方式在视频监控中寻找线索需要耗费大量的时间和人力。因此,基于自然语言描述的跨模态行人检索作为缓解这一问题的新兴技术,旨在根据自由形式的自然语言描述的询问,在不同的视频监控中找寻符合描述的目标行人。该任务是一项极具挑战性的细粒度跨模态检索任务。 首先,考虑到自然语言描述信息的
近年来宽色域视频图像技术取得了较大发展,通过采用更加饱和的三原色的成像与显示技术以及采用多原色背光或多原色彩色滤光阵列的多原色成像与显示技术大大提高了色域覆盖范围。本论文对目前扩展色域的三原色及多原色数字成像与显示技术进行了广泛研究与分析,并针对当前多原色宽色域成像系统的图像信号无法在现有标准三原色通道传输和多原色宽色域显示系统没有多原色图像源的问题,设计并实现了与三原色标准相兼容的四原色宽色域视
随着信息技术的高速发展,室内导航、家居设计和增强现实的需求日益增长,场景的重建和理解已经成为计算机视觉和计算机图形学中一个很活跃的话题。如今的重建方法大都依赖于较为理想的环境,在光线较弱和视角稀疏的现实情况下存在着很多问题与挑战。本文围绕着如何在弱光照条件以及稀疏视角的情况下重建与理解现实场景展开研究,其主要工作和创新点如下。 (1)设计了一套简易偏振系统用于图像的增强。为了应对彩色图拍摄质量不