论文部分内容阅读
随着计算机图形处理能力和三维建模技术的不断提高,越来越多的多媒体数据大量出现并被用户广泛使用。三维模型数据作为继声音、文本、视频等之后的新一代多媒体数据,在游戏、虚拟现实环境、医学诊断和计算机辅助设计等领域已经得到了广泛的研究和应用,促进了三维模型检索技术的出现和快速发展。然而,目前在三维模型检索技术中仍然存在的一些挑战性问题阻碍了三维模型检索技术的发展。基于内容的三维模型检索主要是通过提取三维模型本身的特征,实现模型对模型的检索。然而,在许多实际应用中,三维模型复杂的空间结构和形状信息导致了三维模型特征信息很难被充分表示。由于文字无法精准地描述一个三维模型,所以三维模型和文本的跨媒体检索的核心问题(语义鸿沟)尚未得到很好的解决。针对基于内容的三维模型检索以及三维模型和文本的跨媒体检索中存在的问题,本文分别提出对应的解决方法,其主要工作及创新点如下所示:(1)提出基于组对深度特征学习的三维模型检索方法。该方法主要包括三个核心阶段:视图特征提取、组对特征学习和特征融合。本文利用一种改进的卷积神经网络提取视图描述符,并利用池模块中的最大池和平均池操作来聚合视图描述符以减少三维模型有效信息的丢失。由于不同类型特征包含不同的三维模型信息,本文利用有监督的自编码器和多标签判别器来进一步挖掘三维模型的潜在特征和类别特征。本文采用串联的方式将两种特征进行融合以形成更具判别性的形状描述符,同时定义一个边界中心损失来进一步提高三维模型检索性能。在Model Net10与Model Net40数据集的实验结果表明所提出的方法优于其他对比方法。(2)提出基于多模态辅助分类器生成对抗网络的文本检索模型方法。在该方法中,共享网络将三维模型和文本数据投影到公共子空间来获取同语义特征表示。而判别器能够区分特征表示的模态及所属类别以提升共享网络的特征学习能力。同时,本文定义一个基于结构保持损失的神经网络优化方法来提高模型检索的准确性。此外,在多模态辅助分类器生成对抗网络模型的基础上引入自编码器,构造基于自编码器的多模态辅助分类器生成对抗网络。该网络主要利用自编码器重构数据的特性进一步缩小文本和三维模型之间的语义鸿沟,并提高三维模型和文本之间的跨媒体检索性能。在XMedia Net数据集上的实验结果表明两种网络均取得了良好的检索效果。本文以特征学习为研究目标,通过利用卷积神经网络、自编码器以及生成对抗网络的表征学习能力实现三维模型的深度特征提取,并通过不同类型特征的智能融合,分别给出高效的三维模型的单模态检索方法和基于文本的三维模型的跨媒体检索方法,以实现基于生成对抗网络的三维模型多形式检索。