论文部分内容阅读
移动互联网和社交网络服务的快速发展,为用户分享和传播图片提供了极大的便利,由此产生了丰富海量的图像数据。如何让计算机自动理解这些高维异构的图像数据,获取其语义信息,是近年来学术界和工业界的研究热点。本文从移动互联网用户角度出发,充分利用移动设备内置的多传感器,研究基于多模态方式的地标识别技术。 传统的地标识别方法大都采用基于地理位置的近邻算法或是基于讦算机视觉的图像对比技术,然而由于GPS传感器的误差以及图像数据库的庞大,这两种方法效果都不尽如人意。为此,提出了一种结合地理信息和视觉信息的地标识别方法,称之为S+V算法框架。该算法接收一张带有相机地理参数(包含GPS坐标,相机朝向,相机张角)的照片作为查询输入,从地理信息(概率视锥模型)和图像视觉(稀疏表达相似度量)角度分别估计出相机周围的地标被拍摄捕捉到的概率分布作为输出。在此基础上,进一步提出了贝叶斯概率视锥模型,该模型通过分析过往历史的查询日志可以得到更加精确的后验概率分布,并且还能够起到地标剪枝的作用,降低了视觉计算代价。在真实的数据集上的充分实验验证了S+V算法框架的有效性和高效性。 在海量的图片数据库中,含有地标并且有助于识别的图片仅仅占一小部分,大多数的图片都是无关地标的噪音数据。如果能够将那些有用的图片保留下来,去除无用的噪音图片,就能够进一步提高地标识别的准确率和效率。为此,提出了基于群智计算的协同显著性区域标注算法,该算法能够自动地通过对比邻近相似的图片,将图片中含有地标的区域标注出来,如果没检测到显著性区域,那么该照片即为噪音。基于真实的Campus数据集和经典的Oxford数据集上的实验表明了该算法能够有效地剔除噪音,提高地标识别的精度和效率。 近两年来深度学习技术的兴起推动了计算机视觉领域的发展,由深度模型逐层抽象出来的特征能够更好地表达出图像的语义信息。引入了深度卷积神经网络对S+V框架中的视觉部分进行建模,为了减少深度模型的权重参数和避免由模型聚合带来的在线查询时间的线性增长,训练了多个深度神经网络,然后将他们统一压缩到一个浅层的网络,该浅层网络能够近似的表示那些深度模型的聚合结果。同时,又提出了具有快速搜索相似性图片功能的哈希神经网络,该网络能够同时输出查询图片对应地标的概率分布和二值哈希语义编码。在经典的MNIST和CIFAR-10以及真实的Singapore和New York数据集上的实验结果表明了哈希神经网络的有效性。