基于乘积量化的近似最近邻搜索方法研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:jay12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今信息技术发展越来越快,人们的生活和工作也因此变得更加便利、快捷。在全球的信息共享与交互中,随着互联网技术的深入发展,信息数据的采集、传播速度和规模都达到史无前例的水平,但同时也让全球迎来了一个信息泛滥的时代。面对海量的文档、图片、视频等数据信息的处理,如何对人们需要的数据信息进行快速、有效的存储与查询是目前国内外研究的热点。在信息数据生活的各个领域中,近似最近邻搜索技术已经被人们广泛使用。而近似最近邻搜索的相关方法,也一直是国内外学者研究的热点。乘积量化及其各种改进、拓展的方法,由于具有内存消耗较低和检索速度较快的优点,在近似最近邻搜索(ANN)中得到了广泛的应用。乘积量化是一种分治方法,该方法将高维数据向量均分成多个低维子空间向量,然后对子空间向量分别进行向量量化。但是乘积量化仍然存在不足,乘积量化假设数据向量划分的子空间的信息量是平衡的,实际上数据向量的各子空间信息量可能是不平衡。而乘积量化的性能很大程度上取决于原始数据的分布,如果子空间的信息量极度不平衡,乘积量化则会产生不好的结果。乘积量化方法未考虑数据子空间信息量是否平衡的问题,为了进一步优化乘积量化方法和与其类似方法的性能,本文将针对此问题从两种不同的角度来对现有的基于乘积量化的方法进行优化。第一种角度是将数据空间中的不平衡信息去除,提出了去均值加法量化(MRAQ)方法,首先使用标量量化器单独学习数据点的均值,将数据点去除量化均值得到剩余向量,然后对数据点的剩余向量使用加法量化处理。该方法通过去除量化均值的操作,去除了数据空间中不平衡的信息,使剩余部分达到统计均值为零且各维度的期望值为零的意义上的信息平衡。MRAQ方法通过对比实验验证了在精确率方面得到了实质性的改进,MRAQ方法与经典的方法相比进一步减小了量化误差。第二种角度是利用数据子空间信息量不平衡的特点,根据其信息量的大小为子空间分配不一样的位数,提出了优化位分配乘积量化方法(OBPQ)。乘积量化为子空间分配相同数量的位数,但由于子空间信息量可能是不平衡的,均匀分配位数反而可能会造成较大的误差。优化位分配乘积量化方法首先根据数据集各子空间的信息量所占总信息量的权重为子空间分配不等的位数,然后再以实现量化误差最小为目标函数,去调整子空间位分配,得到最终的位分配。同样通过对比实验验证了该方法的有效性,实现了进一步的性能优化。
其他文献
近年来,国内城市轨道交通进入了发展的快车道,但是在其发展过程中,所带来的振动和噪声问题也越来越严重。列车通过小半径曲线地段时,会产生比较大的轮轨噪声,从而引起了车内噪声较大,影响了乘客乘车体验,严重时甚至引起人们的投诉。本文首次将BP神经网络原理应用到曲线地段车内噪声预测方面,对城市轨道交通车内噪声预测方面的研究具有指导意义。对车内噪声和轮轨噪声方面进行频谱特性分析,确定车内噪声超标的原因,在轮轨
目的:急性痛风性关节炎(AGA)是一种以急性关节炎为主要表现的代谢性疾病,发病率在世界范围内呈上升趋势。然而,AGA的发病机制尚不清楚,需要新的代谢标志物来早期预测和诊断AGA。本研究利用UPLC-MS代谢组学技术,揭示健康人、无症状高尿酸血症(HUA)以及AGA三种状态下的血清代谢物改变,从而探寻AGA的生物学标志物和病理生理学机制。方法:纳入AGA组、HUA组和健康对照组各50例,收集血清样本
【目的】采用ICDAS标准评价含氟浓度为llOOppm的含氟牙膏及含新型抑菌剂牙膏应用于3~4岁学龄前儿童的防龋效果。【材料和方法】本研究为随机、对照、双盲设计、三组平行进行、为期12个月以幼儿园为依托单位的临床试验研究。选择北京市密云区7所儿童在园刷牙的幼儿园,招募所有3~4岁儿童参加本研究。在研究开始前,获得北京大学口腔医院生物医学伦理委员会的批准,儿童家长或监护人在项目开始前签署了知情同意书
Notch信号通路在多细胞生物的进化过程中高度保守,是介导细胞间直接接触的主要信号通路之一,在肿瘤细胞的分裂、分化、增殖、凋亡和控制血管新生等方面具有重要作用。Notch的异常调控会引起组织发育的异常,并导致肿瘤的发生;因此,Notch信号通路的调控将是一条潜在有效的抗肿瘤途径。目前已知的Notch通路抑制剂作用靶点主要包括Notch受体与配体、ADAM、γ-分泌酶、转录因子RBP-jk,其中针对
开发初中古诗文课堂教学资源,有利于培养学生的学习兴趣,提升教师的专业水平。初中语文课堂教学资源指的是进入初中语文课堂,针对初中学生的年龄与心理特点,围绕语文课堂教学目标,支持语文课堂教学开展,并为语文课堂教学利用的各种条件。因此,初中语文课堂教学资源要尊重学生主体地位,重视学生表情达意的欲求,又要表现语文课堂教学资源的科学合理性。本研究中,初中古诗文课堂教学资源开发与利用的意义是,激发学生学习古诗
我国目前教育培训行业发展空间大,无论从学生或成人,各类生源对教育培训需求上升,教育培训企业发展迅速。任何企业想要实现健康稳健的发展,离不开良好的财务管理基础。财务管理作为企业经营核心环节,需要严格、完善、合法的财务内控制度,以保证企业财务会计信息及时、准确、有效,保证企业战略目标稳步推进,保证企业管理水平不断提高,也是为了保障企业利益主体的相关权益。良好的财务内控制度也需要有效合理的控制、监督和保
乡镇公办中心园学习环境在农村幼儿园里起到引领示范的作用,目前位于广西东部的乡镇公办中心园学习环境的实然情况如何?研究者带着测评工具《幼儿学习环境评量表修订版》(以下简称ECERS-R)走进一所有三年办园历史的乡镇公办中心园,对其学习环境进行测评,测评的结果为2.14分,低于最低标准3分。所测的7个维度(空间与设施、个人日常照料、语言—推理、活动、互动、课程结构、家长与教师)中,语言—推理学习环境最
气密性是衡量密封器件质量与性能的重要指标,在对产品质量要求越来越高的当前,气密性检测成为了生产加工中的必要环节。目前市面上流行的气体泄漏检测设备多是采用单片机或PLC为主控器,这类设备普遍存在着自动化程度低、人机交互性差的问题。此外,在工业上广泛应用的差压法虽然具有较高的检测精度,但是在被测容器体积未知的情况下,存在着泄漏率不可计算的缺点,在某些场合仍不能满足生产的要求;近几年提出的容积补偿法,存
学位
本文以对纳米Ba-MgO的改性和探讨Ru、Ba和MgO之间的相互作用为出发点,运用超声-沉淀-强静电吸附法和浸渍法制备了一系列改性的纳米Ba-MgO载体及其负载的Ru基氨合成催化剂,运用X射线衍射(XRD、in-situ XRD)、场发射扫描电镜(FE-SEM)、N2物理吸附、程序升温脱附(TPD)、热重(TG/DTG)、X射线光电子能谱(XPS)和高分辨透射电镜(HR-TEM)等表征手段对样品进