论文部分内容阅读
数字影像设备、网络技术的发展使互联网图像数量呈爆炸式增长,Flickr、Zooomr等社交网站的出现为海量图像资源管理提供了新思路。这类网站的一个重要特点是用户可以手工对共享的图像进行标注,这一过程称为社会化标注,社交媒体下用户为资源提供的初始标签称为社会化标签。社会化标签在信息资源的管理、传播、分享等方面发挥着非常重要的作用,但是由于社会化标注过程是完全自由、不受约束的,再加上用户文化程度、生活背景等差异,导致社会化标签存在诸多问题。标签缺失和低质量标签是其中最主要的问题,这些问题严重阻碍了社会化标签在个性化推荐、图像检索等相关领域的进一步发展与应用。如何改善社会化标签,使标签能更全面、更精确地描述资源内容具有十分重要的现实意义,同时也是当前计算机研究领域的热点问题。本文结合机器学习和模式识别等方法对社交媒体下的图像标签优化问题展开研究与探索,主要工作和研究成果包括以下三个方面:(1)首先系统地研究了社交媒体下标签中存在的主要问题以及形成原因,并且分析了图像标签优化相关方法的研究现状。在已有研究成果的基础上,结合丰富的互联网数据、词典语义知识库等信息,提出了一种综合度量标签相关性的方法,与传统方法相比,该方法从不同语义角度(内容相关性、层级相关性)探讨了标签-标签关系。此外,还基于图像特征提取、语义分析等技术探索了图像-图像相互关系。(2)针对社交媒体下图像标签缺失的问题,提出了一种基于标注词语义与图像视觉的标签丰富算法。算法的主要思想是:首先根据用户提供的初始标签为待丰富图像推荐一组候选标签集合,候选标签满足多样性、相关性的要求。然后利用图像信息、标签信息进一步度量候选标签与图像之间的相关度,最终只保留相关度高的候选标签。与其他方法相比,该算法充分融入了图像-图像、标签-标签相互关系,能准确召回缺失标签,并且具有计算简洁、成本代价低等优势。基于MIRFlickr数据展开实验,实验结果充分验证了本算法能有效实现标签丰富。(3)针对社交媒体下存在噪声标签、语义模糊等低质量标签的问题,提出了一种高效的图像标签优化算法。算法的主要思想是:首先基于随机游走模型对图像标签信息进行初始化;然后利用标签、图像之间的语义关联建立数学模型,进一步把标签优化问题转换为该模型的求解问题。与已有的标签优化模型相比,该模型综合考虑了图像视觉与标签语义的一致性、噪声稀疏性、标注稀疏性这三个方面,充分保证了图像与标签之间正确的对应关系,提升了标签优化效果。最后基于MIRFlickr数据展开实验,分别验证了模型的有效性、预处理对模型的优势以及本算法的标签优化性能。