论文部分内容阅读
随着科学技术的飞速发展、数字移动设备的普及以及社会媒体(social media)的兴起,多媒体内容呈现爆炸式增长。多媒体作为新一代信息资源,除传统的文字信息外,还包含了具有表现力强、蕴含信息量大、形象生动等特点的图像、音频和视频等媒体。因此,面对形式和内容如此丰富的海量多媒体信息,如何对其进行有效的分析与理解成为当前的热点研究问题。
多媒体数据的特征表示越来越多样化,其特征维数也越来越高。然而,部分特征之间相关性太强,信息冗余量太大,甚至部分特征近似于噪声。也就是说,不是所有的特征都具有判别力。研究如何从中选择出最能反映数据本质的特征表示对多媒体内容分析与理解具有重要的意义。另一方面,多媒体数据一般采用底层特征描述,与高层语义之间存在所谓的“语义鸿沟”。充分挖掘多媒体数据的潜在结构,为其学习一个紧致的数据表示,建立底层特征与高层语义之间的语义映射,将能缩小“语义鸿沟”,有效地改进多媒体内容分析与理解。另外,各种媒体信息在语义表达上通常具有一定的相容互补特性,充分挖掘和利用这种特性能够有效改善多媒体内容分析与理解的性能。针对上述问题,本文以子空间学习为主线在理论方法研究(特征选择和语义映射)和实际应用(个性化社会标签推荐和新闻检索)两个方面对多媒体内容分析与理解进行了研究和探讨。主要研究内容和贡献如下:
(1)基于非负谱聚类和潜在结构学习的无监督特征选择。针对目前数据特征维数高、存在噪声特征以及特征之间信息冗余的问题,本文提出了一种融合非负谱聚类分析和潜在结构分析的无监督特征选择方法。在特征选择的过程中,提出了非负谱聚类算法学习样本的类标指示函数(伪类标),为特征选择提供判别式信息。另一方面,提出了潜在结构分析算法挖掘特征之间的关系并假设该潜在结构是一个低维线性子空间。该方法将非负谱聚类和潜在子空间学习融合起来能够选择出具有强判别力的特征子集。
(2)基于鲁棒结构子空间学习的多媒体语义映射,针对底层特征与高层语义之间的“语义鸿沟”,提出了鲁棒结构子空间学习框架,同时考虑特征学习和语义映射,为数据学习一个抽象的表示,建立底层特征与高层语义之间的关联,从而缩减“语义鸿沟”.该子空间不仅保持了原始特征空间的局部拓扑结构,还保持了标签级别的局部和全局一致性。此外,该方法融合了行稀疏模型,对离群点和噪声具有鲁棒性。本文将该方法应用于社会图像标注、聚类、半监督和监督分类问题,均取得了显著的性能,说明本方法能够为多媒体数据学习一个有效的特征表示。
(3)基于统一潜在子空间学习的个性化社会标签推荐。为便捷用户管理组织个人图像,提出了一种通过挖掘用户的历史标注行为以及地理位置信息的个性化社会标签方法.本方法学习一个统一潜在子空间,挖掘每个用户的标注偏好以及每个地理位置对应的标注倾向性,建立个性化(地域化)的视觉底层特征与高层语义标签的关联。针对用户新上传的图像,利用用户信息和地理信息,进行基于语义和内容检索对其自动推荐标签。
(4)基于潜在因子分析的多媒体新闻检索。为了使在线新闻阅读用户能够在海量的新闻中快速地找到所需要的全面信息,本文提出基于新闻四要素(事件、人物、地点和时间)对多媒体新闻进行二次整合和深度分析,挖掘出潜在关系,便捷网络用户的浏览和检索。为了给用户提供基于新闻人物检索的系统,提出了一种多关系共享子矩阵的学习方法,挖掘出潜在的多种关联关系,为用户提供新闻事件(人物)相关的新闻事件、新闻人物以及它们之间的关系。其次,提出了基于新闻地点的新闻服务系统。本文提出了一种保持有序关系的矩阵分解模型,进行新闻地点相关性分析,同时提出挖掘新闻文本内容与网络图像的关联关系,为新闻内容提供多媒体信息。本文设计的新闻检索系统能够使用户快速地获取需要的新闻信息。