融合实体解析的Top-N查询处理

来源 :河北大学 | 被引量 : 0次 | 上传用户:qq382585541
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统Top-N查询处理技术尚未融合实体解析,对于具有重复元组的脏数据集,这些技术可能失效。本文给出融合Top-N查询处理和实体解析的五种算法:具有顺序访问和随机访问的TAER算法、限制顺序访问的TAZER算法、仅支持顺序访问的NRAER算法,以及基于学习的LeDer算法和LeMer算法。另外,给出朴素算法作为实验的基准,比较和分析这些算法的性能。
  前三种算法不依赖于数据库管理系统(DBMS),而是数据库友好的NoSQL类算法,其索引结构为一些简单的排序列表。对于n维数据集R(tid, A1, A2,…, An)的属性Ai,针对R的所有元组t,将(tid, t[Ai])按属性值t[Ai]排序,得到列表Li。设Q=(q1, q2,…, qn)为一个查询点。算法TAER运用n个列表L1, L2,…, Ln,通过二分查找法定位查询点Q,即确定每个qi在列表Li中的位置,从两个方向找出距离qi较小的元组坐标方向,并以此方向决定有序列表Li顺序访问方向,通过顺序和随机访问得到候选元组,同时进行实时实体解析。算法NRAER同样运用n个列表,定位查询点Q(q1, q2,…, qn);双向搜索查找候选元组。不同的是算法 NRAER 对所有的属性仅进行顺序访问,没有随机访问。算法TAZER运用m个列表L1, L2,…, Lm (1?m  基于学习的算法LeDer运用DBMS,应用学习机制并使用Select-From-Where语句从基础数据库检索候选元组的集合,进而解析候选元组。基于学习的算法LeMer,其基本思想类似于算法 LeDer,但算法 LeMer 从内存中检索候选集。利用学习机制,算法LeDer 和LeMer得到查询点Q的搜索区域S(Q, r),检索出S(Q, r)区域内的元组并将其进行实体解析。
  针对低维、中维和高维(2维至120维)数据集进行广泛的实验,运用实验结果对比和分析本文算法的性能,指出各种算法在不同数据集的优势和不足,及其所使用的范围和特征。
其他文献
该论文选择HfO高K栅介质作为研究对象,利用反应溅射方法制备了HfO2栅介质薄膜;仔细分析了不同的工艺制备条件对其HfO栅介质电学性质和可靠性的影响;分析了HfO栅介质中的漏电流机制和应力感应的漏电流(Stress-induced leakage current,SILC)效应以及工艺条件的影响;同时还利用反应溅射方法制备了氮化的HfO(HfON)栅介质薄膜,研究了HfON高K栅介质的电学特性.研
数据挖掘技术能够高效利用信息资源,关联规则挖掘是数据挖掘中的最重要任务之一,广泛应用在市场营销,证券交易,医疗诊断等领域。然而挖掘包含敏感和隐私信息的数据时,若不采取保护措施,将会造成信息的泄露。传统的匿名保护会带来安全性的问题,而基于加密的隐私保护实用性较低,所以急需一种高可用性和安全性的隐私保护算法来对关联规则挖掘进行隐私保护。  与传统匿名保护不同,差分隐私不依赖攻击者的背景知识,提供了一种
学位
学位
一般学校的传统的组卷方式是教师手工组卷,要重复花费大量的精力、时间,且主观性、随意性较大,科学性、可靠性不足。近些年来出现的计算机自动组卷系统虽然改进了人工组卷的一些缺点,但其组卷方式均采用随机算法抽取试题组成试卷,测试结果的客观性和合理性存在不足。本文将遗传算法应用于计算机组卷系统避免了上述缺点,具有组卷效率高、可靠性好等优点。本文主要内容如下:  介绍了计算机自动组卷的现状、意义以及技术发展,
学位
流感是一种传播速度快、变异频繁及影响范围广的重大传染病,也是第一个实行全球监测的呼吸道传染病。流感病毒不断地通过基因序列的变异来躲避机体免疫系统对它的防控,一旦具备合适的条件,它就会随时暴发。据WHO(WorldHealthOrganization,世界卫生组织)报道,全球每年有300~500万人感染流感病毒,而其中25~50万人因此而死亡。流感给人类造成了巨大的社会危害和经济损失。近年来,随着生
学位
众多公司与个人都将数据存储于云端的各种数据管理系统中,以获得更低的成本、更高的可扩展性、更方便的部署和无处不在的服务。然而,数据的外包也意味着随时可能泄漏。尽管云服务商声称能够保护好用户隐私,实际上存在大量个人隐私泄露事件。如,2013年雅虎30亿用户数据被盗,2014年支付宝20GB用户资料泄露等。保护数据隐私的简单办法就是对数据进行加密,但数据加密后会带来一系列问题:不仅难以查询、难以更新,而
学位
在高速发展的现代社会,终身学习知识的重要性越来越凸显,大规模网络公开课程(MOOC)在如今的信息化的时代背景下,结合互联网高效、免费、便捷的特点,给人们提供了很大的学习便利。基于MOOC环境下的在线学习也越来越被接受和认可,然而这种学习方式也存在着许多值得研究和分析的问题,比如学生在学习的没有强制性的约束,使得学习过程很难从一而终,即高流失率的问题,学习效率特别低等。了解学生在MOOC环境下的学习
学位
随着科技的发展,无人机技术越来越成熟,应用也越来越广泛。其中旋翼无人机(主流的有:三旋翼,四旋翼和六旋翼)由于其自身的灵活性而受到广泛的关注。其主要应用于航拍,快递和农业植保。而无人机在应用过程中会遇到定位问题,目前无人机一般都是使用GPS来进行定位,然而在室内情况下由于受建筑物的影响无法使用GPS。因此,需要另外一种定位技术-室内定位。目前主流的室内定位技术有:红外定位,超声波定位,射频识别(R
在万物互联的物联网时代,低功耗广域网(LPWAN)技术是物联网的关键技术,而LoRa作为一种新兴的LPWAN技术备受关注。在LoRa无线网络中,由于接入网络的终端节点数目众多,如何减少通信冲突、降低功耗、提高网络通信可靠性及实用性是设计MAC层协议需要考虑到的重要实际问题。本文主要研究与实现LoRa无线网络MAC层TDMA时隙分配协议,旨在解决上述问题,具体工作如下:  首先介绍了LoRa无线网络