面向商品图像的低比特移动视觉检索的研究与应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:wjq12262024
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能手机和移动互联网的发展,移动电子商务已经成为了一个热门的发展方向。然而传统的文本关键字搜索方式存在如下问题:1)用户所关注的重点与网站描述不同,常常无法搜索到想要的商品。2)搜索返回的排序结果往往不符合用户的预期。  将视觉检索技术应用于商品搜索将有效解决这两个问题。用户无需思考如何表达搜索意图,避免了描述差异带来的搜索不成功的问题;由于图像的信息较文字描述更加丰富,使得返回更加符合用户意图的排序结果成为可能。然而,为了将移动视觉检索技术应用于商品检索,需要解决如下三个问题:  1)如何描述商品的视觉特性。  商品具有表面光滑及易产生非刚性形变等特性。这些特性导致大部分视觉特征在商品图像上缺乏描述力和辨别力。大量的纯色商品,缺乏纹理信息,颜色及纹理描述子对于这类商品缺乏判别力。形状作为商品图像的重要属性,能够较好描述此类商品。但是,现有的形状特征多基于物体轮廓,因此,对商品内部线条描述不充分,导致对检索有用的信息缺失。  2)如何在保证商品图像检索性能的同时提升检索效率。  检索效率对检索系统的用户来说至关重要。为了提高检索效率,现有方法通过构建词典将图像特征量化成词典中的视觉单词,再使用视觉单词进行检索。词典量化方法的量化误差,将导致描述子对商品的表达能力降低,从而较大程度降低了检索性能。因此,如何在保持检索效率的同时,设计更好的量化词典,降低特征量化误差,是提升商品检索性能的重要问题。  3)如何降低移动网络传输延迟。  由于移动互联网的带宽较窄并且不稳定,直接传送手机拍摄的查询图像将导致传输延迟。因此,如何在保持检索性能的同时对视觉信息进行更紧凑的表达,是降低网络延迟的重要问题。  针对上述三个问题,本文提出一套面向商品图像的基于鲁棒的紧凑形状上下文描述子的移动视觉检索算法,并成功应用于移动商品检索。本文的主要贡献包括:  1)本文提出了面向商品图像的鲁棒局部形状上下文描述子。本文指出为了描述商品的内部形状,需要使用局部形状上下文描述子。然而局部形状上下文描述子缺乏稳定的兴趣点选择过程,本文通过探究匹配描述子与不匹配描述子的差异,提出针对局部形状上下文描述子的特征选择算法。在数据规模为10000张的京东箱包数据集上,SIFT的mAP为13.5%,鲁棒局部形状上下文描述子的mAP为39.07%。  2)本文提出了基于稀疏编码的鲁棒局部形状上下文词典学习算法。该算法结合了稀疏编码的低量化误差及SVT量化框架的低复杂度,在京东数据集上的检索实验,使用层次稀疏编码词典学习算法的商品检索mAP较使用Kmeans词典学习算法的商品检索mAP由39.07%提升至51.07%。  3)本文提出了基于鲁棒紧凑形状上下文描述子的商品检索算法。通过分析经过层次稀疏编码量化算法获得的量化后的描述子,获得描述子特征值的分布特性,提出使用Huffman编码对特征进行紧凑表达。在京东数据集上的检索实验中,特征比特数由32000比特下降到2670比特时,mAP由51.07%下降到50.28%。
其他文献
该文结合业已完成的船载航行数据记录仪功能样机系统软件,阐述了船载航行数据记录仪系统的功能需求和总体设计方案,并分别介绍了VDR数据采集软件和数据回放软件的实现过程.其
该文主要是通过作者开发的一个手写体笔迹识别系统的基础上,详细介绍了手写体笔迹识别人的理论,笔迹识别人系统的结构,训练的方法原理等等.整个系统包括了两个重要组成部分:
雨量等值线是水利行业的常见应用系统之一,而目前还没有成熟的基于B/S方式下实现的雨量等值线应用系统,因而研究和实现基于WebGIS的B/S模式雨量等值线绘制方法,以满足水利行
该文首先分析了电源/地布线网络的分析、设计与优化中存在的问题.在分析与验证方面,大规模Mesh结构布线网络计算量大,需要花费很长的运行时间和很大的内存空间,通用的电路模
该文的工作主要集中在以下几个方面:1、通过对各种宽带接入技术的比较,分析了以太网接入的优势及其存在的安全问题,提出了接入认证的作用和意义,并简要论述了接入认证技术的
类型是编程语言中的一个很重要的概念,它定义了一个变量的内存布局和这个变量可以使用的运算符。类型在实际程序中,特别是面向对象程序中具有重要意义。经典分离逻辑是一种可应
该文主要的工作是对检测后的人脸图像进行了特征提取和识别的研究.在对图像进行各种归一化处理后,首先提取了人脸图像的K-L变换系数特征,奇异值特征和不变矩特征来作为初始特
随着网络时代的到来,用户可获得的信息包含了从技术资料、商业信息到新闻报道、娱乐资讯等多种类别和形式的文档,构成了一个异常庞大的具有异构性、开放性的分布式数据库。结合
图像颜色编辑技术是计算机图形学与计算机视觉学科的热门课题,在动漫影视、文化遗产、娱乐广告等工程领域中,有着非常广泛的应用。本文主要研究图像编辑领域中,两种重要的算
该文主要针对实化聚集视图的查询计算问题进行了较为深入的研究.首先,研究了聚集语言与实化聚集视图的关系以及聚集查询重写;其次,对基于聚集视图的聚集查询的近似计算进行了研