论文部分内容阅读
由于"语义鸿沟"的存在,自动图像标注是一项极具挑战性的工作。考虑到图像低层视觉特征与高层语义概念的差异,分别从图像表示与语义建模两个方面来实现自动图像标注。在图像表示方面,提出了一种正则化约束下的非负张量表示方法,用以提取符合人眼视觉直观理解的图像高阶结构特征。在语义建模方面,提出了一种三层贝叶斯模型——扩展隐Dirichlet分配。该模型利用隐变量来实现图像与标注词的关联,并通过一种基于变分推理的期望最大值方法来估计参数。实验结果表明,ELDA模型在大规模数据库NUS-WIDE上的标注结果相较于现