基于非线性哈希的图像与视频检索算法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:tp13140
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据量与日俱增的大数据时代,移动互联网技术得到了飞速的发展并促进了智能终端的普及。当下人们记录信息方式不仅仅局限于文本内容,更多地采用图像、视频等方式记录生活中的方方面面。这使得多媒体信息量在数据总量中占据了很大的比重,人们对图像、视频等视觉内容的信息检索需求日益增长,例如在电商购物、影视搜索等领域。现如今庞大的图像与视频数据总量给检索带来了巨大的挑战。如何快速、准确地从图像与视频数据中检索出人们想要的信息成为了当前的研究难点和热点。为满足人们对于视觉信息检索的需求,基于哈希的检索方法凭借着低内存消耗和快搜索速度的优势成为了当前热门的检索技术。但现有基于哈希的图像与视频检索方法仍存在模型泛化能力不足、哈希码间有信息冗余、量化误差较大、解决不同模态之间的语义鸿沟不足等问题。针对上述问题,本文重点研究以图搜图、以图搜视频两个任务场景,并开展相关研究工作。针对以图搜图的任务场景,本文提出了一种基于非线性深度哈希的图像检索算法。在该算法中,为解决现有工作中模型对复杂图像内容拟合能力弱、泛化能力不足的问题,提出了一种基于LSTM的非线性映射方法,利用LSTM的非线性拟合能力提升模型鲁棒性。考虑到哈希码间的信息冗余和网络融合问题,提出了一种滑动窗口机制,通过片段化特征信息提升模型对局部信息的关注能力。针对量化误差问题,提出了一种基于policy gradient的量化误差控制方法,采用奖惩机制对误差所带来的影响进行奖惩。最后,利用真实数据集进行实验测试,实验结果表明,所提的图像检索算法与相关算法对比,提升了检索精度,验证了所提算法在MAP指标下具有更好的性能。针对以图搜视频的任务场景,本文提出了一种基于非线性跨模态哈希的视频检索算法。在该算法中,为解决图像数据与视频数据间模态差异带来的语义鸿沟问题,提出了一种基于跨模态哈希的语义鸿沟消除方法,将图像与视频信息映射到同一语义空间下。考虑到哈希码对视频信息表征能力不足及视频特征与哈希码关联性差的问题,提出了一种基于深度学习的端到端学习方法,使视频特征提取与哈希码生成融为一体。针对现有模型泛化能力不足的问题,提出了一种基于LSTM的非线性映射的方法,利用LSTM的非线性拟合和记忆能力,更好地保留视频信息。最后,利用真实数据集进行实验测试,实验结果表明,所提的视频检索算法与相关算法对比,提升了检索精度,验证了所提算法在MAP指标下具有更好的性能。
其他文献
在污染环境中,粘附在土壤微孔(<2.5 nm)中的大分子不溶性重金属和有机污染物很难去除。腐殖质(humic substances,HS)和微生物均不能进入微孔与污染物接触以与它们反应。为了解决土壤微孔中污染物难去除的问题,我们需要引入腐殖酸(humic acids,HA)小分子量组分(low molecular weights fractions,LMWF)的小分子研究。由于腐殖酸可通过进
机动车交通事故责任属于实践中最常见的一类侵权责任,而机动车使用可能性丧失亦是这类侵权责任中最常见的情形。本文研究目的有二:明确车辆使用可能性丧失是否得以请求侵权的损害赔偿;若可以赔偿,赔偿范围如何确定。使用可能性的丧失请求损害赔偿必须满足侵权的构成要件。而有争议的是使用可能性是否属于受侵权法保护的权益以及使用可能性丧失是否存在可赔偿的损害。首先,使用人可分为所有权人和占有人,各自的利益必然不同。使
在计算机视觉领域,图像匹配是一项基本功能,在图像拼接、目标识别、视觉定位等应用中起着重要的作用。在多种主要的图像匹配方法中,基于尺度不变特征提取算法(Scale Invariant Feature Transform,SIFT)的图像匹配方法有着鲁棒性高的优势。但是,SIFT算法也有明显的缺点:算法复杂度高、计算量大,通用平台的计算能力难以满足实时处理的需求。本文介绍了基于SIFT特征提取算法的硬
阅读是英语听、说、读、写四项基本语言技能之一,学生的阅读水平体现了他们运用语言的综合能力。另外,阅读成绩在英语总成绩中占比较大,这也使得阅读教学在英语教学中显得尤为重要。随着全球网络信息技术的发展,人类从读写时代进入了超文本时代,这要求人们必须能够在不同形式的语言和不同的表达方式之间自由切换。在这一背景下,2017年颁布的英语新课程标准在语言技能中增加了“看”(viewing)这一技能,“看”(v
近年来,随着互联网的快速发展,大量的网上应用所产生的海量数据使用户越来越难以从中快速获取到最有价值的信息。推荐系统的出现给这一问题提供了有效的解决途径,然而传统的推荐算法越来越难以从当前稀疏的用户数据中提取到有用的信息。如何有效挖掘这些稀疏数据中存在的有用信息,成为了当前推荐系统面临的一个主要挑战。推荐系统在提供便捷的推荐服务的同时也面临着严重的隐私泄露问题。差分隐私作为一种能够提供更加严格和可量
致密砂岩气是非常规油气的重要组成部分,是当前沉积储层的研究热点之一。确定致密砂岩储层的沉积—成岩特征至关重要,储层分类评价是寻找优质储层的必经之路。鄂尔多斯盆地是中国重要的含油气盆地之一,以致密储层为主,因此需要加强致密砂岩储层的研究。本文利用岩心观察、钻测井分析、普通薄片、铸体薄片、扫描电镜、阴极发光、X衍射、能谱分析、物性分析、压汞分析等分析测试手段,系统研究了二叠系石盒子组致密储层的沉积—成
随着科技的不断进步,现代战争中电子战占据的地位越来越重,现在往往只要摧毁敌方的雷达探测系统,就能获得整场战争的胜利。电子战分为雷达侦察、雷达干扰、电子摧毁等几部分,其中雷达干扰能够让敌方雷达失去目标探测能力,从而无法检测到我方战斗机、导弹等战略武器,所以雷达干扰的重要性尤为突出。雷达干扰同样分为好几个部分,包括干扰样式的产生及选择,干扰策略的选择等。在实际情况中选择正确的干扰样式和干扰策略尤为重要
空间数据现势性问题日益突出,已经引起了广大用户和政府部门的高度关注。因此,空间数据更新已经逐渐成为空间数据生产部门的主要任务。为了实现实时快速更新,最大限度的满足人们
随着经济快速发展,产业发展与自然资源之间的矛盾日益尖锐。为了有效评估产业发展对资源环境的胁迫影响,本研究引入环境足迹来表征人类活动的资源消费和环境影响。然而单一的足迹指标只能表征环境影响的某个方面,因此,本文基于投入产出模型和熵值法对环境足迹进行定量集成,从城市、国家和全球三个尺度分析了环境足迹的定量集成和区域转移,以期为产业部门的绿色发展提供科学参考。本文首先基于单区域投入产出模型,对1997-
随着移动互联网以及互联网电商的发展,以图搜图,尤其是服装检索技术,正在被越来越多的商业机构、研究者关注。本文立足于研究服装检索的各个技术模块,以深度学习理论为基础,研究基于深度学习的服装检索技术。本文着重研究服装检索的以下三个问题:1.图像预处理。由于服装图像多种多样,为了排除背景、姿势等影响,需要为系统构建一个服装区域检测的前置模块;2.监督分类及特征提取。不同于传统的手工设计的特征提取方式,基