论文部分内容阅读
随着多媒体技术地不断发展,人们对场景理解和场景虚拟后交互的需求日益增加。目前,视觉场景理解与交互技术已广泛应用于艺术设计、智能机器人、工业制造和虚拟现实等诸多领域。然而,现有技术框架的高效性、准确性和可扩展性难尽如人意,仍然有很大的提升空间。因此,如何准确理解场景中的关键信息,高效直观地与虚拟三维场景模型交互,进而构建场景理解与交互的整体解决框架,成为本文的重点关注问题。本文从构建场景理解与交互的整体框架出发,研究了物体类别检测、场景字符细化重建、场景字符轮廓恢复和三维模型交互编辑等子问题。此外,我们基于雕塑辅助设计应用背景,提出了雕塑建模及姿态编辑系统,实现了视觉场景理解与交互过程。本文所取得的创新性成果主要包括以下几个方面:(1)提出了一种结合局部外观信息与上下文约束的多类物体检测方法。本文首先通过局部信息块构建多类霍夫森林,以刻画物体类间的形变和外观多样性。然后,本文提出一种多类上下文模型,以刻画物体实例间的相对位置约束。最后,一种用于结合外观信息和上下文约束的贪婪搜索算法被提出,以获取置信的多类物体检测结果。(2)提出了一种基于环半径变换(RRT)的场景多方向字符细化重建方法。所得细化骨架能够保持字符的拓扑结构,因而对文档识别和计算机视觉有重要的意义。本文首先基于环半径值,从任意方向获取中轴线,即字符轮廓的中间像素点。然后,一种基于邻域信息的迭代生长方法被提出,用于连接中轴线的断开处和形成字符笔画。去除背景造成的错误笔画后,该方法利用中轴笔画的环半径值重建了字符轮廓。(3)提出了一种从视频/场景图像灰度域中直接提取完整字符轮廓的恢复方法。将所得字符轮廓作为现有文字检测与识别方法的输入,能够显著提高其检测与识别结果。本文首先通过拉普拉斯算子所生成的零交叉点检测候选笔画像素(SPC)。而后,基于SPC对在灰度域和傅里叶域的对称特性,本文检测可能的笔画点候选对(PSCP)。PSCP的类间对称特性被用于在PSCP集合中甄别种子笔画点候选对(SSCP)。最后,一种基于SSCP的迭代生长算法被提出,以恢复完整字符轮廓。(4)提出了一种实时的和增量式的三维模型交互编辑方法。该方法允许用户在无需等待系统重建的情况下,以增量式方式编辑三维模型,即用户可以自由的定义不同集合的编辑点以编辑模型的不同部分。本文基于拉普拉斯矩阵特征向量频谱构建传播场,并使用传播场中采样的等高线作为变形描述子。通过以上方式,变形描述子在选择编辑点前被计算输出。在交互编辑阶段,由编辑点所定义的用户约束被实时引入变形编辑系统。(5)基于雕塑辅助设计背景,提出了一种新颖的和实时的辅助雕塑姿态设计平台,实现了视觉场景理解与交互过程。该平台允许雕塑家从场景图像中重建三维雕塑模型,并以视觉交互方式自由地和实时地控制雕塑的姿态。本文首先通过多视角图像的协同分割和增量式重建,获取细节丰富的三维雕塑模型。然后,基于重建雕塑构建拉普拉斯算子,所提方法在雕塑表面自动搜索候选编辑点。最后,一种实时的基于Kinect的姿态编辑算法被提出,以支持雕塑家通过视觉交互方式直观地编辑雕塑模型的姿态。