面向缺失数据的低开销近似查询布鲁姆过滤器算法

来源 :湖南大学 | 被引量 : 0次 | 上传用户:ztqye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来计算机网络发展十分迅速,信息共享无时无刻不在发生,这就使得如何在纷繁复杂的信息世界中迅速定位所需的资源成为当前研究的重点和挑战。由布隆提出的布鲁姆过滤器就是一种高效解决现有问题的数据结构,它能以很小的存储代价迅速地进行元素匹配。但是随着网络的发展,传统的布鲁姆过滤器所支持的精确查询已经不能完全满足新兴网络应用的需求,这些网络应用要求对数据进行近似成员查询(Approximate Membership Query,AMQ)。近年来学者们也提出了不少针对近似成员查询的布鲁姆过滤器算法,而这些算法并不支持面向缺失数据的近似查询,但是现实中的数据大多数表现出高维度、维度冗余、带有缺失值的特点,这就限制了传统近似查询布鲁姆过滤器的使用范围,同时当数据维度较高时,哈希运算所需的时间也会较长,这意味着高维度数据插入、查询的时间代价较大。因此本文提出了面向缺失数据的低开销近似查询布鲁姆过滤器,本文主要成果如下:提出了一种面向缺失数据的基于PCA(Principal Component Analysis)降维的近似查询布鲁姆过滤器结构,同时设计了在这种结构下数据的插入、查询操作。本文使用存在缺失且维度冗余的数据训练PCA投影矩阵,该矩阵高度适应与训练数据同分布且存在缺失的数据降维,使用该投影矩阵对后续数据进行降维,用降维后的数据进行插入与查询操作。以上步骤使得对高维度冗余且存在缺失的数据的近似成员查询成为可能,同时通过降低数据的维度减小了查询时间代价。本文使用真实数据充分验证了算法的误判率较其它方案低。提出了一种面向缺失数据的基于自编码器降维的近似查询布鲁姆过滤器算法。由于标准的PCA降维是一种线性降维方法,在数据线性不可分的情况下效果将降低,由此本文提出了一种基于自编码器的非线性降维方法代替之前的PCA降维过程,该方法高度适应非线性数据降维。本文通过理论分析证实了基于两种降维方法的近似查询布鲁姆过滤器算法的有效性,在真实数据集实施对比实验证明了在数据集线性不可分情况下,基于自编码器降维的近似查询效果较好。
其他文献
本文对基于Yolov3的目标检测识别和视觉跟踪算法进行研究,本文主要开展了如下工作:1.本文对目标检测展开研究,本文提出了引入通道剪枝的单输出层Yolov3改进目标检测算法,为缩减算法参数量和计算量,该算法使用通道剪枝操作精简网络层次,在不影响准确性的前提下可以获得整体宽度更小的网络,同时为了防止强制性分层预测该算法将原本Yolov3算法的多输出结构改为单输出层结构。2.本文对目标跟踪展开研究,本
随着工业的快速发展,我国环境污染状况日益严重。在污染环境的修复进程中,土壤污染是最为棘手的问题。不同于有机污染物可以被微生物降解,土壤中的重金属只能通过人为的提取(如淋洗、电动修复)或者向土壤中投加稳定剂,使毒性大、迁移能力强的重金属转化成毒性小或无毒、迁移能力弱的形态。其中,铬污染的土壤需要特别注意,不仅因为Cr(Ⅵ)致癌性和高毒性,而且还因为其不同的性质(如,不同p H值下的价态变化、阴离子形
随着科学技术与经济的快速崛起,数字化、图示化与抽象化的建筑空间占据了我们的生活,城市化进程快速推进的过程夹杂着快餐式文化,这使得我们所处的空间缺少了底蕴与人性,过度重视觉效果的视网膜建筑,废弃了其他感知器官进而疏远了我们的身体,忽略了我们内心的感知,使我们的精神、记忆、情感无处安放。自上而下形成的现代化空间,大多由建筑师个人的想法所摆布,只看重形式与功能则必然留下对建筑空间的身心体验与精神寄托的空
“智能无人零售车”是自动驾驶技术与网络在线支付技术的融合,对于新零售具有重要的理论和实践意义。智能无人零售车使人们的生活更加便捷与丰富,也是消费市场出现的前所未有的新奇购买方式。无人车技术属于智能自动驾驶车领域,也被称为轮式智能机器人。无人车技术主要依托于车内计算机系统,使其能根据指令移动到某个特定的地点。交通方式正在步入智能化自动驾驶的时代,随着车联网技术的铺开,百度作为全国自动驾驶的领军企业,
商业的石墨/炭负极的低比容量严重限制了锂离子电池的进一步发展,而硅由于其4200 m Ah g-1的高理论比容量、较高的丰度及环境友好等优势被认为是最具有前景的下一代锂离子电池负极材料。然而在合金化过程中,高容量也伴随着巨大的体积效应和内应力,使得电极结构不稳定,硅颗粒破碎及固体电解质界面的反复再生会导致容量的急剧衰减。另外,硅具有半导体特性,较差的电子、离子传输速度也制约了其作为负极材料的应用。
改革开放以来,新疆的经济快速发展,人均地区生产总值由1978年的313元提升到2017年44941元,番了整整7番,人民生活水平不断改善,生活幸福指数显著提高。但是需要注意的是,作为新疆首府的乌鲁木齐在2017年的生产总值为2730亿元,同年南疆四地州中的克孜勒苏柯尔克孜自治州生产总值为118亿元,两者生产总值相差近27倍。新疆作为“丝绸之路经济带”的核心区,是推动我国区域经济协调发展的重要组成部
随着智能电网战略的发展和推进,电力系统和信息系统之间的交互愈发紧密。智能电网被视为一种典型的信息物理系统即电力信息物理系统(Cyber Physical Power Systems,CPPS),其信息-物理交互作用于电能的产生、传输和分配等过程。近几年发生的若干起蓄意攻击电力系统的事故表明,电力系统融合信息系统会带来新的脆弱性因素。而以往的CPPS研究分析仅从单一系统出发进行分析,与实际情况存在偏
石墨作为当下最普遍的锂离子电池(LIBs)负极材料,在LIBs商业化应用中取得了巨大的成功。然而,石墨负极材料的储锂容量(372mAh·g-1)较低,难以满足“信息社会”高速发展对于高性能储能器件的要求。因此,开发高容量的新型LIBs负极材料具有重要意义。同时,作为高容量的新型负极材料还应满足储量丰富、开发成本低廉以及利用率高等要求。非金属材料中的硅、锗、磷以及金属类的锡、锑等具有较高的理论比容量
药物诱导肝损伤(DILI)是指因药物本身或其代谢产物导致的肝脏损伤,已成为药物撤市和药物研发失败的主要原因之一。DILI是一个复杂的过程,在这个过程中,伴随着各种相关的生物酶和活性物种(活性氧、活性氮、活性硫等),含量的变化。其中,过氧亚硝酰阴离子(ONOO-)在DILI早期阶段显著增加。因此,实现细胞和活体内ONOO-浓度变化的精准检测,对DILI机理研究以及预防具有重要意义。然而,ONOO-具
近年来,在计算机视觉领域,深度学习推动了人脸识别、自动驾驶等很多技术的快速发展。但在实际应用中,深度学习模型需要大量的图像样本来进行训练,而由于涉及到隐私、成本等问题,图像训练样本的获取往往非常困难。生成对抗网络(Generative Adversarial Nets,GAN)能够生成大量逼真的图像对训练样本进行补充,为解决图像训练样本难以获取的问题做出了贡献。作为GAN的变体,带有一致惩罚项的瓦