论文部分内容阅读
随着多媒体数字化技术的发展和推广、存储成本的降低、网络传输带宽的增长,各种多媒体数据如图像、视频等飞速膨胀逐渐成为信息的主流,并对人们的生活和社会发展产生重要的影响。图像是视频的的基础,在多媒体数据管理中占有重要的地位,如何有效的管理这些大规模图像数据已经成了摆在人们面前的需要亟待解决的问题,“语义清晰”是大规模图像数据管理的重要前提,因此图像语义自动标注的研究成为了相关领域的研究热点。
图像语义的自动标注本质上是一个学习问题,即根据图像的视觉内容推导出图像的语义标签。因此,各种机器学习、统计推理技术都应用于图像标注的研究中,并在不断的深化和推进。然而,由于图像标注中“语义鸿沟”以及“多标签”问题的影响,现有方法的标注性能仍有待进一步提高。
本文围绕图像标注的多标签特点,集中利用多标签的相关性和共现性知识,针对多标签特性带来的数据稀疏、噪声数据集以及语义多标签的无序性等问题开展研究,在多标签数据集的转化、语义多标签的排序、图像语义自动标注系统等方面进行了新的尝试,并取得了一定的效果。
本文主要工作如下:
(1)提出了一种新的多标签数据集转化方法RAPC-W:针对现有多标签数据集转化方法无法有效利用标签间的语义相关性和共现性知识以及转化后得到的数据集存在数据稀疏和噪声数据集的问题,提出了一种新的多标签数据集转化方法RAPC-W(RankingByAllPairwiseComparisionBasedWordNet),该方法将标签对从原始的两对扩展到四对,增加了划分后数据集的规模。另外,引入了外部数据源WordNet,较好地考虑了标签语义相关性和共现性知识,一定程度上过滤掉了语义不相关的标签组合,更好的保留了原始数据集的信息,降低了噪声数据集对基分类器训练的不良影响。实验结果表明该方法是有效可行的。
(2)提出了一种新的语义多标签排序算法:语义标签的排序结果也是图像语义自动标注结果正确与否的重要参考指标,针对当下图像语义自动标注中语义标签排序不准确的问题,提出了一种新的多标签排序算法,该算法利用判别分类技术中用到的基分类器,根据划分后数据集的规模给予每一个基分类器一定的权值,最后利用该权值对每个基分类器输出的语义标注结果进行投票,从而实现对语义标签的排序。最终实验结果表明该方法是有效的。
(3)设计实现了一个图像语义自动标注系统:语义自动标注技术的研究在多媒体数据管理领域具有十分重要的理论意义与应用前景。为了充分展示本文所提方法的标注性能及其应用价值。本文在以上所提两个算法的基础上,参照多马尔可夫随机场的图像语义自动标注模型(MultipleMarkovRandomField,MMRF),设计并实现了一个图像语义自动标注系统,通过交互式的图像语义标注模型的训练与标注演示,充分展示了该标注系统优越的标注性能。