【摘 要】
:
Top-k查询作为一种重要的数据管理操作,在信息检索、生物医疗、多目标决策支持等领域都发挥着重要的作用。由于网络传输延迟、数据采集设备精度限制、以及保护用户隐私数据等
论文部分内容阅读
Top-k查询作为一种重要的数据管理操作,在信息检索、生物医疗、多目标决策支持等领域都发挥着重要的作用。由于网络传输延迟、数据采集设备精度限制、以及保护用户隐私数据等主客观原因,在日常的生产生活中,不确定数据广泛存在,从而为数据的查询带来了新的挑战。另外,随着云计算的普及,人们对于数据的隐私保护越来越重视,在数据安全与可用性之间需要作出审慎的权衡。针对不确定数据top-k查询处理面临的挑战,对该问题的研究工作分别从以下三个维度进行开展:首先,针对不确定数据上查询语义多样性导致查询复杂度高的问题,给出了基于期望编辑距离的不确定字符串top-k查询的形式化定义,提出了一个新的距离语义概率n-gram集合映射距离,进而结合查询语义以及概率n-gram分词的特点,提出基于概率n-gram集合映射距离的近似匹配过滤算法,并通过建立基于概率n-gram划分的多层倒排索引以及频率矩阵来进一步优化算法实现。通过对该算法进行时间复杂度分析和一系列对比实验性能评测,验证该算法实现对不确定字符串top-k查询的高效处理,相比于基准算法具有较高的剪枝过滤能力和良好的可扩展性。其次,针对查询候选集规模膨胀导致单机无法承载大规模不确定数据查询处理的查询性能问题,提出了在分布式环境下基于MapReduce框架的不确定字符串top-k查询处理并行化算法。首先基于概率n-gram集合映射距离提出了一个新的期望编辑距离下界,通过将此下界与阈值算法无缝结合,有效地提升Map阶段对候选项集的过滤修剪效率,从而在保证查询正确率的基础上,大大减少本地节点的计算开销,以及Map节点与Reduce节点之间的通信成本。通过分别在真实数据集和合成数据集上的一系列综合对比实验结果表明,该算法在最佳情况下的速度是基础并行算法的6倍,在大规模数据集上对不确定字符串的top-k查询具有显著的加速性能,并且在不同实验参数设置下具有良好的可扩展性。最后,针对云环境下数据共享导致的隐私安全性问题,提出了一种满足差分隐私的不确定数据top-k查询处理算法。首先,提出满足差分隐私的多维不确定数据top-k查询问题的形式化定义;然后,通过在本地建立满足差分隐私的R树索引,同时在服务器之间组建内容可寻址网络来构建分布式两级索引;最后,分别通过理论分析和实验测评验证了该算法满足?-差分隐私,具有较好的可扩展性,并且在相同的差分隐私原则下,与现有方法Quad-opt相比,该算法的数据可用性提高了约20%。综上所述,通过从单机环境下到分布式环境下的查询过滤性能和用户隐私数据安全性等不同维度对不确定数据top-k查询处理问题进行研究,从而形成一系列面向不确定数据的top-k查询处理优化算法,有效提升多种不确定数据在多个实际应用场景下的查询性能。
其他文献
这些年我国在寒区冻土科学研究方面进展神速,可谓成就斐然。尤其以冻土区公路、铁路路基和中俄原油管道地基处理为代表的研究、研发工作都取得了令人满意的成果。但冻土区地
在社会经济快速发展的形势下,随着电力企业建设的不断推进,电力行业的规模日趋扩大,而电能又是难以长期大量储存的能源,对短期内电力用户用电多少的预测渐渐成为电力系统在运
果品观光采摘是休闲农业的重要组成部分,是依托果树资源进行产业融合的重要抓手,对果树产区的乡村振兴具有重要意义。秦皇岛市果树资源丰富,果品采摘发展迅速,但也存在着许多问题。本文通过文献查阅、实地考察、调查问卷、统计分析、总结归纳等方法,对国内、外果品观光采摘业的发展历程进行探讨,调查了秦皇岛市的10种主栽果树的分布和种植情况,对秦皇岛市21家省级采摘园走访调查,以其为例对秦皇岛市果品观光采摘园的经营
插花地是特定时期、特定历史条件下、特定区域内的各个政区(或行政区划)在形成、发展和变迁过程中形成的各种穿插交错和经界不正的总称,包括飞地和犬牙之地两种基本类型。总
LiVOPO_4材料的电子电导率和离子导电率较低,但是拥有结构稳定、安全性能可靠、高工作电压(3.9 V,vs Li/Li+)和高比容量(317.44 m Ah?g-1)等优点,是一种具有商业化应用潜在优势的锂离子电池正极材料。本论文主要对LiVOPO_4材料的制备以及表面修饰进行了系统的研究。采用喷雾干燥法制备β-LiVOPO_4材料,研究了不同合成工艺对合成样品的结构、形貌以及电化学性能的影响
矩阵方程理论是线性代数内容中非常重要的一部分,在代数、组合、图论、控制等领域有着广泛的应用.Sylvester矩阵方程最早出现在19世纪80年代,在各个领域受到很多学者的重视.
目的:本文对辣椒(Capsicum annuum L.)再生体系研究的国内外现状,发展前景及实验方案做了详细研究。通过利用细胞的全能性使其经过再分化或脱分化与再分化的过程,最终发育成
松塔坝址位于西藏自治区察隅县察瓦龙乡境内,怒江河流走向约N10°E,流向南,河谷呈现狭窄状,坝区内河道顺直,河谷呈较对称“V”形。工程设计坝型为双曲拱坝,拱坝最大坝高318m
高精度的定位结果是无人驾驶汽车进行路径规划等各项任务的前提。目前无人驾驶汽车多采用全球卫星定位系统(Global Positioning System,GPS)获取车辆的定位信息。GPS能够在空旷区域获得准确的定位结果,但在有障碍物遮挡的环境存在定位精度低甚至难以定位的问题。惯性视觉同步定位与构图(Visual Inertial Simultaneous Localization and Mapp
化石燃料的日益枯竭以及化石燃料燃烧给环境带来的污染日益严重,推动能源转型是我国能源革命的主要目标,加大清洁能源在电力行业消费中所占比例是能源转型的重点。随着光伏发电技术的快速发展,光伏电源在电网中的渗透率持续增大,同时由于光伏发电带来的随机性、波动性以及光伏发电系统并网无惯性等问题,都会引起电力系统的不稳定。为了保证电力系统的安全稳定运行,本文以光伏发电系统为研究对象,通过对混合储能控制系统和虚拟