论文部分内容阅读
近年来,随着互联网的迅速发展,数字多媒体图像出现了飞跃式的增长,海量的图像资源给人类带来了便利同时也带来了挑战,比如,如何准确、高效地从大量图像数据库中检索出所需资源己成为一大难题。但因“语义鸿沟”的出现,使得低维的图像特征不能表达用户丰富语义,这给基于内容的图像检索以及图像标注的发展带来很大限制,同时为了解决人工标注带来的困难,图像自动标注技术应运而生,成为当前关键的研究课题。图像自动标注的过程是,计算机首先训练已标注的图像,自动学习低层视觉特征与高层图像语义间的关系模型,然后将模型运用到未知语义的图像中,实现自动标注图像任务。本文从数据挖掘中的关联规则出发,提出一种基于模糊关联规则和决策树的图像自动标注模型。模糊关联规则是数据挖掘和分类领域的重要方法,能解决分类的模糊性、不准确性。本文将模糊关联规则运用到图像标注领域,提高了标注的准确性。此外,针对海量的图像数据库形成的大量冗余关联规则,该方法做出了算法的改善,提高算法的效率。文中再围绕“二次标注”的思想,在模糊关联规则和决策树的图像自动标注模型上,通过计算标注词的“语义相似性”,删除无关标注词,大大提高了标注的性能。本文取得的主要成果有:1.方法引入隶属度函数,首先将数值型图像低维视觉特征转化为语义模糊特征,得到模糊特征向量,再建立模糊特征和图像高层语义的联系的模糊关联规则,最后基于决策树方法剪枝策略删减关联度低的模糊关联规则。方法一方面跨越了语义鸿沟问题,另一方面大大减小了标注的时间复杂度。实验使用Corel5k和IAPR-TC12图像数据集来测试标注的性能,引入了标注精度、召回率、F-measure以及规则数目几个衡量标准,通过与其他标注模型的对比,验证该方法标注的准确性和优越性。2.在模糊关联规则和决策树的图像自动标注模型的基础上,本文使用语义相似性度量思想,通过“语义去噪”过程,实现对待标注模型的优化,提出一种加权语义相似度度量方法。用加权的方式计算单词对的距离和单词对的深度,达到删除语义相似度低的标注词汇的目的,改进语义标注的性能。