论文部分内容阅读
图像理解是在图像处理与分析的基础上,结合人工智能和模式识别理论,解释客观图像场景并分析图像内容,从而指导和规划人类行为。图像理解以图像为对象,知识为核心,研究图像中何位置有何物体、物体场景之间的相互关系、图像是何场景以及如何应用场景等等,它与计算机视觉、人工智能有着密切的联系,具有重要的理论研究意义和广阔的应用前景。
本文瞄准图像理解的核心问题,以通用图像为研究对象,按照“表示与存储-认知与学习-分析与理解”的研究思路,着重研究图像理解中的物体识别和语义分析问题,具体包括单类、多类物体识别和图像多标签分类。通过结合低层视觉特征和语义化图像特征以及半监督学习和多标签分类等机器学习技术,提出一些物体识别模型和图像多标签分类方法。取得的主要成果有:
1.提出一种基于特征捆绑的物体识别模型。该模型是结合一种特征捆绑计算模型Bayesian Linking Field模型得到的。通过选用Gabor特征作为原始特征,然后依据各维Gabor特征对物体识别的综合贡献度选出指定维数特征作为初级特征并且将各个初级特征以及特征之间对物体的重要性作为实现特征捆绑的标准。各特征之间并不是相互独立的,相反它们的共同存在对于物体的识别有着明显的促进作用,我们的模型正是借助于该思想达到较好识别效果的。
2.提出一种结合外观及空域特征的半监督物体识别方法。该方法将表征物体外观的一阶特征和表征物体局部之间空域关系的二阶特征融合到一种协同推举算法CoBoost中以从噪声图像中学习物体类别。本方法很好地利用CoBoost算法的理论框架以及一阶、二阶特征的丰富的表征能力。此外,Boosting框架能选择出最具分辨能力的特征,尤其是对于二阶特征,它们是动态生成和选择的,从而避免了高维特征所带来的巨大的计算量和存储量。
3.提出一种拓扑序标签链分类器方法。该方法首先根据标签共现建立一个有向标签图,然后在有向标签图上应用改进的图拓扑排序算法得到一个拓扑序标签链,最后将生成的拓扑序标签链应用到标签链分类器中得到拓扑序标签链分类器。相比于原始标签链分类器中使用的随机排序链,本方法使用一种拓扑序标签链,它包含一些紧密关联的标签子链,同时链中的标签之间保持着拓扑序,这使得将它应用到标签链分类器方法中,前端建立的二类分类器会为后端的二类分类器训练提供更多的信息,从而确保得到更好的分类结果。
4.将模型共享技术与一种基于正例和无标注样例算法Roc-SVM相结合,提出模型共享的弱标注学习模型MSWL。该模型能很好地利用弱标注数据以及标签关联。一方面,由于模型共享技术的引入,模型能自动地找到标签之间的关联,并以共享的方式去利用标签关联。另一方面,模型中的目标函数借鉴harmonic函数方法思想,这使得任两个样本的标签和它们之间的相似度尽可能保持一致。此外,模型中采用Boosting框架,迭代地每轮训练一个基模型,目标损失函数逐渐收敛,整个模型训练简单且有效。
5.在本文提出的图像理解方法和实验室现有多媒体信息检索系统MIRES基础上,实现一个基于语义的图像检索系统。系统同时支持基于图像范例的查询和基于标签的查询。基于图范例查询结合严格的低层视觉特征匹配方法和一种倒排索引方法;而基于标签的查询需要语义标注方法的支持,系统使用了拓扑序标签链分类器方法、模型共享的弱标注学习方法和半监督物体识别方法对图像进行自动标注,避免了大量的手工标注。