论文部分内容阅读
近年来,移动智能设备如手机、平板电脑等,变得越来越普及,随着移动互联网的发展,人们接入网络也越来越方便和迅速。此外,越来越多的人选择分享自己生活经历相关的图像到社交网络,这些都促使网络中上传的图像数量急剧增加。然而由于用户手工输入标签的主观性,其中准确标注的图像只占很小的一部分,对于非准确标注或未标注的图像,其他用户往往不能直接从图像的视觉内容中获得图像的准确描述。而对这些图像的准确分类,是网络多媒体信息规范化和有序化的基础,也是各种网络应用如图像检索、个性化推荐以及许多潜在手机图像应用的必要技术条件。 由于上下文对图像视觉内容影响很大,大多传统的仅基于图像视觉内容的图像分类技术,无法克服上下文对于图像的分类准确性的影响。本文研究了使用地理上下文辅助图像视觉信息进行分类的方法,旨在对地理信息的约束性进行有效利用,提高图像的分类准确率。 对于不同的分类任务,由于数据规模,组织形式和信息分布的差异,上下文信息在分类中的作用大小和具体使用方法也不尽相同。在本文中,我们研究了三种方法,分别为1)基于地理上下文的概率模型方法,2)地理局部化分类模型方法,3)视觉分类模型与地理近邻搜索相融合的方法。其中前两种方法用于餐馆菜品识别,后一种方法用于拍摄图像在常见概念上的分类。 1.考虑到概率模型在处理复杂关系上的灵活性,我们针对餐馆菜品识别问题建立了概率模型,将地理坐标、餐馆、菜品类别和视觉特征相关联。利用这些关联,我们可以在纯视觉方法的基础上提高分类的准确率。此外,我们还可以将该模型的其他形式应用于餐馆识别和地理位置识别等目标上,相比基于单一模态信息的方法,准确率都有所提高。 2.对于餐馆菜品识别问题,考虑到在全局类别上训练的分类模型的局限性,即其与实际预测时地理近邻中的候选类别存在不匹配的问题,我们提出了地理局部化分类模型的方法,将地理上下文信息用于分类模型的训练过程,使模型从根本上对地理位置更有针对性,再根据查询图像的地理坐标将这些分类模型进行地理自适应组合。该方法避免了地理上下文不同对分类模型的影响,提高了分类准确率。同时也由于每个模型包含类别的减少,简化了分类的时间复杂度,提升了方法整体的可扩展性。 3.作为对地理上下文辅助菜品识别的泛化,我们研究了拍摄图像在常见概念上的分类问题,这里的目标常见概念来自于Flickr数据集中图像的常见标签。在该工作中,我们设计了一种视觉分类和地理近邻搜索相融合的分类框架。我们考虑在两种地理尺度上对地理上下文进行利用,其中地理局部化分类模型在粗尺度上实现,而地理近邻搜索则是在细尺度上实现,两者最终与全局类别训练的分类器相结合,形成了有效的互补,提高了分类性能。