论文部分内容阅读
随着计算机辅助设计技术的飞速发展和新兴媒体的不断涌现,三维建模在智能制造、3D电影、3D动画、虚拟现实/增强现实和三维医疗等领域扮演着重要角色。面对数据与日俱增、种类多样的三维模型数据,如何智能地管理这些数据,已成为多媒体分析领域的研究热点。传统的三维模型检索主要使用文本关键词或者是三维模型作为输入,来实现相关模型的查询。然而,传统方法面临两大困难:一方面,文本标注主观性强,复杂模型无法用精简准确的语言描述;另一方面,对于普通用户来说,三维模型不易直接获取。因此,急需研发更加智能和便捷的三维模型检索技术来满足当前需要。智能移动终端设备的普及使得拍照、草图、涂鸦等2D图像数据的获取和生成变得异常便捷,这些来源多样的数据能便捷地描述用户对待查询信息的需求,为创新三维模型检索技术的研发带来了便利条件。因此,面向多源图像信息的三维模型检索应运而生。面向多源图像信息的三维模型检索其核心基础是基于图像的三维模型检索,是对三维模型检索的一种技术拓展,该拓展性是依据检索查询图像来源的多样性定义的。通常,基于图像的三维模型检索任务就是在给定一张2D图像的情况下,去给定的三维模型数据库中查询与之相关的三维模型。该任务的关键在于图像和三维模型的表征学习。然而,在实际应用中,图像的来源具有多样性和多源性,给该任务带来机遇与挑战,三维模型与类型未知图像的共嵌空间学习以及三维模型与多源图像的多共嵌空间对齐等技术成为研究的关键。通过对该领域研究现状的调研和分析,本文围绕以下三个紧密关联的内容展开研究:(1)三维模型与自然图像的表征学习:图像和三维模型属于不同模态的数据,具有显著不同的外观,因此无法直接利用各自视觉特征进行相似性度量,从而完成检索任务。因此,需要缩小图像与三维模型的特征差异,建立可共享的视觉特性表征空间。针对基于自然图像的三维模型检索任务,本文基于自适应分布对齐和域结构一致性提出两种表征学习方法:1)基于自适应分布对齐的表征学习方法通过自适应调整自然图像和三维模型数据的边缘分布和条件分布,实现域不变特征的学习;2)基于域结构一致性的表征学习方法是通过挖掘图像域和三维模型域数据分布结构的信息,建立两者的关联性,提升伪标签预测的准确度,进而更好的辅助域对齐,实现域不变表征学习。最后,将这两种方法在MI3DOR和MI3DOR-2数据集上进行有效性验证,由实验结果可知,自适应分布对齐和域结构一致性对齐的这两种方法都可以减少图像和三维模型间的域差异,实现检索性能的显著提升,其中这两种方法在MI3DOR数据集上,最近邻准确性NN分别提升了16.5%和14.0%。此外,基于域结构一致性对齐方法优于基于自适应分布对齐方法,最近邻准确性NN评测指标在MI3DOR和MI3DOR-2数据集上分别提高了9.5%和1.5%。(2)三维模型与类型未知图像的共嵌空间学习:在实际应用中,作为查询输入的图像可能会有多种类型,如自然图像,草图和涂鸦等,不同类型图像与3D模型之间数据形态差异大,缺乏统一的共嵌空间学习方法来实现独立于图像类型先验的三维模型检索技术。本文提出了一种基于中间域生成的共嵌空间学习方法。该方法在流形空间下,探索能够满足类型未知图像和三维模型数据分布对齐的潜在共嵌空间,实现类型未知的图像和三维模型的表征学习。最后,在MDI3D数据集上进行算法有效性验证,将自然图像和草图分别作为查询输入,最近邻准确性NN分别提升了47.8%和12.8%,其他评价指标也有所提升,这说明了中间域生成的方法能灵活处理三维模型与类型未知图像的共嵌空间学习。(3)三维模型与多源图像的多共嵌空间对齐:多源图像信息可以多维度表示待检索三维模型的多样化视觉特性,并与三维模型因模态不同,视觉特征差异显著,导致各种来源的图像和三维模型的共嵌空间的数据分布不同,难以联合利用多源图像实现三维模型检索。本文提出了语义一致性引导的多源共嵌空间对齐方法。首先,该方法将多源图像与三维模型进行分组,构建了基于组数据特定域特征的分布对齐层,实现不同的三维模型和2D图像组间各自对齐,利用对齐后的特征进行分类器学习和预测;其次,为了实现语义一致性空间的学习,将所有分类器的输出进行对齐,保证不同分类器对同一样本数据具有相同的预测结果,进而实现了三维模型与多源图像的多共嵌空间对齐。最后,在MDI3D数据集上进行算法有效验证,实验结果表明,语义一致性引导可以实现多共嵌空间对齐,有助于提升多源图像下的三维模型检索性能。