论文部分内容阅读
随着社会媒体的兴起,海量的多媒体数据在互联网上涌现。多媒体数据的快速增长给海量媒体数据的分析、理解和检索带来了巨大挑战。挖掘媒体数据内部蕴含的丰富结构信息将有助于揭示数据与数据间的相互关系,从而帮助我们更好的处理海量媒体数据,从容应对这一挑战。在本论文中,我们将进一步对基于结构化信息的图像内容分析和理解技术进行深入研究。为此,我们拟从高中低三个层次入手,围绕图像分析和理解中的四个关键问题:场景中的目标检测、目标物体的聚类、目标物体的语义预测与理解、以及基于目标物体的图像检索和加密来开展工作。我们将首先挖掘高层语义间的结构化信息,主要是指通过挖掘物体的类别、属性等高层语义信息间存在的特定结构来解决图像检索,物体检测等问题。其次是挖掘中层图像间的结构化信息,主要是指探索多张非相关图像间内容上的耦合关系,以期获得更好的图像加密算法。最后是挖掘低层特征间的结构化信息,主要是指在区域标注,显著性检测等问题中加入图像特征间的结构化先验信息来提升相关算法的性能。具体而言,本论文的研究内容和创新点包括:1)在挖掘高层语义结构化信息方面,包括三个工作。第一个工作我们把图像中物体的超类、类别、以及属性信息以分层树形结构来组织,构造一个树形结构的语义单元,并提出了基于结构化支持向量机的预测模型,从而对未知物体的语义信息进行结构化的预测输出,该工作解决了现存语义预测模型信息单一问题,有助于进一步弥补图像检索中的语义鸿沟现象。在此基础上,第二个工作在多个树形结构语义单元之间加入了物体间的空间信息,从而构造一个带叶子的三角形结构来对图像进行描述,并用此结构解决结构化图像检索问题。该工作丰富了当前图像检索的输入形式,有助于进一步实现用户的检索意图。第三个工作我们提出了一种基于物体类别、位置、尺度信息的高阶上下文描述符,该描述符通过融合多个上下文源以及物体间的高阶关系来判断物体检测算法输出的候选物体是否符合图片的上下文信息,从而滤除错误检测,保留正确检测。该描述符首次把多源上下文信息和高阶关系统一到一个理论框架中,有效提升了物体检测的正确率。2)在挖掘中层图像结构化信息方面,我们认为任意两张或多张不相关图像间存在耦合关系,并且是可以相互转换的。为此,我们提出了一种基于耦合字典学习和压缩感知技术的图像重建算法。该算法在保证图像质量的前提下先对两张或多张不相关图像进行编码,之后给定任意一张编码图像,可对另外一张图像进行重建。该算法可用于解决图像加密问题,与传统的加密算法相比,我们提出的解决方法不需要在封面图像中嵌入任何数据,可大大提高传输过程中秘密数据的安全性。3)在挖掘低层特征结构化信息方面,也同样包括三个工作。第一个工作使用张量表示人脸图像,并提出了基于张量分析的鲁棒人脸聚类算法。与传统使用向量表示法相比,张量可以很好的保留人脸图像中的结构化信息。此外,该工作可有效滤除人脸图像中存在的各种噪声,相比传统人脸聚类算法更加的鲁棒。在第二个工作中,我们挖掘区域标注过程中特征点、区域、图像之间存在的树形结构关系,并融合此树形关系进结构化稀疏表示理论框架中,有效的提升了区域标注算法的准确率。第三个工作我们挖掘显著性检测过程中图像间的结构化信息,并结合D-S证据理论提出了结构化的显著性检测算法。所提算法简单,有效,不需要训练过程。可作为后处理步骤提升现有显著性检测算法的性能。在以上这些工作中,基于结构化信息的显著性区域检测算法和基于多源信息的高阶上下文描述符用于解决场景中的目标检测问题;基于张量分析的鲁棒人脸聚类算法用于解决目标物体的聚类问题;基于结构化信息的语义标注和基于树形结构的增广图像描述算法用于解决目标物体的语义预测与理解问题;结构化的图像检索和有意义的图像加密算法则用于解决基于目标物体的图像检索和加密问题。