面向近似近邻查询的分布式哈希学习方法

来源 :计算机学报 | 被引量 : 0次 | 上传用户:wb_0622
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近似近邻查询是信息检索领域中的一项重要技术.随着文本、图像、视频等非结构化数据规模的迅速增长,如何对海量高维数据进行快速、准确的查询是处理大规模数据所必须面对的问题.哈希作为近似近邻查询的关键方法之一,能够在保持数据相似性的条件下对高维数据进行大比例压缩.以往所提出的哈希方法往往都是应对集中式存储的数据,因而难以处理分布式存储的数据.该文提出了一种基于乘积量化的分布式哈希学习方法SparkPQ,并在Spark分布式计算框架下实现算法.在传统的乘积量化方法的基础上,该文首先给出了分布式乘积量化模型的形式化定义.然后,作者设计了一种按行列划分的分布式矩阵,采用分布式K-Means算法实现模型求解和码本训练,利用训练出的码本模型对分布式数据进行编码和索引.最终,该文构建了一套完整的近似近邻查询系统,不仅可以大幅降低存储和计算开销,而且在保证高检索准确率的条件下加速查询效率.在较大规模的图像检索数据集上进行的实验验证了方法的正确性和可扩展性.
其他文献
本文利用激光等离子体声波对高功率脉冲激光与材料相互作用过程进行了测量,首次得到了一定条件下几种材料的激光等离子体能量值。
从理论上分析了非偏振光经过了90°分束偏光镜后,在视场角内,o、e光的光强分束比和分束角随入射角变化的关系,并进行了实验验证.结果表明:在误差所允许的范围内,实验所测
【正】 桂林是一个中等城市,在研究其发展战略时,我觉得有三个问题特别值得注意。一、要辩证地看待旅游城市的工业发展问题。“桂林山水甲天下”,早已闻名古今中外。1979年初
所谓动物福利,就是让动物在康乐的状态下生存,其标准包括动物无任何疾病、无行为异常、无心理紧张压抑和痛苦等.基本原则包括:让动物享有不受饥渴的自由、生活舒适的自由、不
通过对老选厂生产历史的回顾,阐述了老尾矿库的成因及特征.依据尾矿性质及试验研究,提出该尾矿库综合利用的重点在于硫、铁资源的回收.其回收利用的原则流程应为浮选-弱磁-强
小反刍兽疫病毒(peste des petits ruminants virus,PPRV)属于副黏病毒科、麻疹病毒属成员。本实验室已经证明,该病毒的囊膜糖蛋白H蛋白在未经密码子优化条件下难以在昆虫细胞
紧抓新一轮产业革命的契机,以人工智能与制造业深度融合为手段,推动制造业迈向中高端是制造业高质量发展的关键。其实质是,在智能化时代即将来临的重大历史节点,建立智能化时
目的查明山西、吉林、宁夏和内蒙古地方性砷中毒(地砷病)重病区居民患病情况,为全国地砷病防治措施和策略的制定提供科学依据。方法采用现场流行病学调查的方法。结果山西、
微光夜视仪最大作用距离是一个非常重要的性能指标,它决定着观察、瞄准距离的远近。本文通过测量和分析物镜、像增强器和目镜等的性能参数,对微光液视仪的最大作用距离估算,用于
本文研究了激光大坝位移实时监测系统的原理,制作了焦距为10m的菲涅 波反,给出了在50m距离上的测量结果。