论文部分内容阅读
由于大数据技术的高速发展,网络中的无标签图像展现出巨大的商业价值,如何快速筛选并使用这些无标签图像数据成为一个极具研究价值的问题。图像检索可以高效检索出需要的图像,而其在无标签图像数据的检索效果依赖于图像标注方法。在图像标注领域,由于图像的视觉内容和文本语义之间存在极大的差异,提出优秀的图像标注算法或改进现有图像标注模型依旧是一个十分具有挑战性的工作。本文围绕图像标注模型的改进、深度学习如何与传统图像标注模型结合展开研究,主要工作内容如下:(1)提出了基于主题融合和关联规则挖掘的图像标注方法,此方法是对基于LDA主题模型的图像标注方法的改进。LDA主题模型将图像视觉模态和文本模态的数据视为相互独立,并在此基础上生成对应模态的主题分布,因此图像不同模态的主题相互独立。为了增强图像视觉数据和文本数据的联系,在模型训练和图像标注阶段均进行不同模态的加权主题融合。基于LDA主题模型的图像标注以及其模型改进都没有考虑图像文本信息之间的关联对图像标注的影响,因此可利用图像文本信息的关联对主题模型的标注结果进行改善。利用改进的LDA图像标注方法获得初始标注词集,然后采用关联规则挖掘算法对初始标注词集进行挖掘找出图像的潜在标注词集。计算图像集所有文本标注词的词间相关性,然后将潜在标注词的词间相关性与基于改进LDA主题模型得到的标注词概率融合,对初始标注词集进行调整,从而改善图像标注的性能。(2)提出了融合卷积神经网络和主题模型的图像标注方法,此方法是深度学习与传统图像标注模型的结合。利用LDA主题模型对图像训练集的文本数据建模,生成图像训练集的潜在文本主题分布和文本主题标注词分布,对图像训练集文本数据的处理弥补了卷积神经网络分类训练集中文本数据维度大,分布稀疏的问题;卷积神经网络提取图像的高层视觉特征弥补了传统图像特征提取复杂和传递图像视觉信息有限的问题。为了提高图像低频文本主题的分类召回率,对卷积神经网络分类训练集中的高频文本主题进行平滑处理。然后利用图像的高层视觉特征和对应的潜在文本主题构建卷积神经网络分类器并进行图像文本主题多标签分类,获得图像的文本主题分布。该文本主题分布和LDA主题模型生成的文本主题标注词分布根据主题模型图像标注词概率的计算公式可得到图像标注词概率,从而确定图像的标注词集。在图像数据集中,将本文改进的图像标注方法与传统图像标注模型进行对比,本文改进的图像标注方法在召回率和准确率上都有一定的提高。将本文提出的结合深度学习和主题模型的图像标注方法与传统图像标注模型相比,该图像标注方法的性能远胜于传统图像标注方法;与当前较为先进的图像标注和基于深度学习的图像标注相比,该图像标注方法在准确率上表现略差,但在召回率有一定的提升。