基于多模态地标识别技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:ShakeBabyYTT
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网和社交网络服务的快速发展,为用户分享和传播图片提供了极大的便利,由此产生了丰富海量的图像数据。如何让计算机自动理解这些高维异构的图像数据,获取其语义信息,是近年来学术界和工业界的研究热点。本文从移动互联网用户角度出发,充分利用移动设备内置的多传感器,研究基于多模态方式的地标识别技术。  传统的地标识别方法大都采用基于地理位置的近邻算法或是基于讦算机视觉的图像对比技术,然而由于GPS传感器的误差以及图像数据库的庞大,这两种方法效果都不尽如人意。为此,提出了一种结合地理信息和视觉信息的地标识别方法,称之为S+V算法框架。该算法接收一张带有相机地理参数(包含GPS坐标,相机朝向,相机张角)的照片作为查询输入,从地理信息(概率视锥模型)和图像视觉(稀疏表达相似度量)角度分别估计出相机周围的地标被拍摄捕捉到的概率分布作为输出。在此基础上,进一步提出了贝叶斯概率视锥模型,该模型通过分析过往历史的查询日志可以得到更加精确的后验概率分布,并且还能够起到地标剪枝的作用,降低了视觉计算代价。在真实的数据集上的充分实验验证了S+V算法框架的有效性和高效性。  在海量的图片数据库中,含有地标并且有助于识别的图片仅仅占一小部分,大多数的图片都是无关地标的噪音数据。如果能够将那些有用的图片保留下来,去除无用的噪音图片,就能够进一步提高地标识别的准确率和效率。为此,提出了基于群智计算的协同显著性区域标注算法,该算法能够自动地通过对比邻近相似的图片,将图片中含有地标的区域标注出来,如果没检测到显著性区域,那么该照片即为噪音。基于真实的Campus数据集和经典的Oxford数据集上的实验表明了该算法能够有效地剔除噪音,提高地标识别的精度和效率。  近两年来深度学习技术的兴起推动了计算机视觉领域的发展,由深度模型逐层抽象出来的特征能够更好地表达出图像的语义信息。引入了深度卷积神经网络对S+V框架中的视觉部分进行建模,为了减少深度模型的权重参数和避免由模型聚合带来的在线查询时间的线性增长,训练了多个深度神经网络,然后将他们统一压缩到一个浅层的网络,该浅层网络能够近似的表示那些深度模型的聚合结果。同时,又提出了具有快速搜索相似性图片功能的哈希神经网络,该网络能够同时输出查询图片对应地标的概率分布和二值哈希语义编码。在经典的MNIST和CIFAR-10以及真实的Singapore和New York数据集上的实验结果表明了哈希神经网络的有效性。
其他文献
该课题从长沙电信局自动转报系统的现状出发,研究了目前电报网中存在的局限性.在此基础上,通过对网络技术、数据库技术,分组交换和网络拓扑设计等技术的研究,找到了解决原有
随着科技和社会的发展,人们对现实世界的感知与交互有着越来越多的需求。增强现实技术能够把虚拟信息与现实环境实时地融合在一起并进行互动,增强了人对现实世界的感知和交互,进
该文在查阅了大量关于面向对象的分析以及相关技术资料的基础上,研究了并掌握了面向对象分析的理论基础,并且在该理论的指导下,成功地开发了《电厂设备管理系统》.该文详细论
该文主要探讨了DCOM/ActiveX技术的组成,如它所包含的组件技术、集群技术、分布式事务处理技术(MTS)等.特别地,结合MTS技术分析了电子商务中的主要事务问题,提出了一套解决的
EDI是一咱用电子方式,在计算机之间直接传递格式化过的商业信息的方法,比如说 ,商业文件的无纸传输.现在,EDI技术已经成熟,发展的动力日益增长.预计在未来的五 年中,EDI将成
随着信息时代的发展,酒店业正朝着现代化、自动化的方向发展,本网络信息系统就是一套实用的酒店管理信息系统。本系统在营口聚源酒店应用后取得了良好的社会和经济效益,得到了用
从数据分析角度来看,离群点是数据集中偏离大量常规数据、从而表现出离群数据模式和产生机制的数据点。在数据清洗过程中,这些点往往被视作噪声而被抛弃。但在许多实际应用领域
随着高通量应用的迅速兴起,高通量处理器成为了新型处理器结构的研究热点,同时这也给传统的处理器结构设计带来了巨大挑战。与追求Linpack速度的传统高性能应用不同的是,高通量
最后几年,Internet的飞速发展已不能用成倍的增长速度来形容,它是以几何级数的速度增长的,而作为Internet技术之一的IP电话新技术,近年来更是对传统的电信技术提出了强有力的
与传统的无线传感器网络相比,可充电无线传感器网络中的节点能够从外界获取能量,从而解决传统传感器节点的能量约束限制问题,有着广阔的发展前景。在众多的能量补充方式中,通过无