连续不确定XML索引技术研究

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户:wqwwvfbgo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的快速发展, XML类型的数据已成为当前一种主流的数据形式,并成为Internet中进行数据交换和表示事实上的标准。在实际生活中,数据的不确定性是普遍存在的,传统的确定性数据已经不能准确描述现实世界。随着人们对不确定性数据的认识研究和对数据采集和处理技术的深入理解,不确定性数据在物流、工业、金融、军事等领域得到相当广泛的应用。基本上,在数据库中的不确定性是为了捕捉现实世界的状态,如监控的压强,温度,移动目标的位置都是在不断改变的。数据的不确定性信息可以以概率值或概率分布的形式在XML文档中表示。对于连续不确定的数据,存储用概率密度函数pdf可能值的范围来代替存储数据单一的值。而相应的概率阈值范围查询,是通过给定概率阈值及范围,来获取超过概率阈值起点并满足查询范围的结果。在概率阈值范围查询中,由于满足查询指定的概率值的出现,从而使得结果被扩大化。概率阈值范围查询比传统查询更精确及信息化。随着用户查询需求的日益增长和多元化,有效地构建XML索引面临着严峻的挑战。当前,XML索引技术的发展也成为了一个热点研究。目前,在实际应用中很多的数据都是服从连续分布的,通过对已有XML索引的研究,本文针对概率阈值范围查询,提出了一种对任意连续不确定XML数据均适用的RLPI索引。首先,在Dewey编码的基础上进行改进,增加了对不确定XML中分布节点IND和MUX的处理一种前缀编码PED-ewey。其次,在RLPI路径索引中将具有相同逆序标签路径的索引项聚集存储,节省了空间花销;在RLPI值索引中,通过预处理任意连续不确定数据,并结合相应地过滤策略,过滤与查询无关的节点,减少了pdf的计算,从而提高了查询的速度。由于计算连续不确定数据pdf比较费时,为进一步提高查询速度,提出一种优化算法CUXI索引树。算法借鉴R树的对空间数据自顶向下递归构建索引树的思想,通过对连续不确定的XML数据聚类构建相应的索引树,并在节点存储提前计算的一些信息,来过滤掉与概率阈值范围查询无关的元素,以减少查询中需处理的元素数目,提高查询的速度。本文实验通过设定文档大小、查询用例和概率阈值作为变量,对比算法查询响应时间测试算法性能。对实验结果进行分析,证明本文提出的RLPI索引算法和CUXI索引树算法具有高效性。
其他文献
如同硬件系统需要一条系统总线连接各个部件一样,分布式系统也需要一条软件总线连接各个节点,为分布式系统提供可靠的通信服务。消息中间件就是分布式系统中的软件总线,为分
随着Internet技术的高速发展,Web已经成为人们获取信息的一个重要途径,由于Web上的文本信息日益增长,如何有效地检索用户所需的信息成为一个非常重要的研究课题。万维网WWW(W
目的了解昆明市HIV感染者病耻感现状,并分析产生病耻感的原因及影响因素。方法采取系统抽样的方法,从昆明市现存活的HIV感染者中抽取样本进行调查,调查内容包括一般人口学资料、HIV防治相关知识及艾滋病相关的病耻感,其中,HIV感染者的病耻感采用简化艾滋病耻辱量表(BHSS量表)进行调查。结果共调查962例HIV感染者,其中男696例,女266例,BHSS量表平均得分为(11.29±3.35)分,汉族
目的 观察探讨新式无保护会阴接生法与传统保护会阴接生法的临床效果,同时分析无保护会阴接生法在南疆地区推广应用的可行性.方法 选取于我院产科住院拟经阴道分娩的初产妇30
起源于幼发拉底河和底格里斯河,以现代伊拉克和北叙利亚为中心的古西亚两河流域是人类文明的发祥地之一,从这一地区出土的数以万计的楔形文字文献是目前所知的世界上数量最多
网格就是一个集成的计算与资源环境,网格环境中,资源是分布在不同地理位置上的,由不同的组织或者个人拥有和操作,资源所有者对资源有绝对的权力,网格对其管理必须满足本地的管理策
本文提出了一种在含有带关节模型的数据库中检索三维形状的方法。首先,针对每一个形状都基于谱嵌入的方法求得其相应的谱嵌入表示,这里的谱嵌入是基于以近似测地距离为基础构
目的探讨流感样病例与气象因素、空气质量因素的相关关系,用时间序列分析法构建流感样病例预测模型,对流感预警预测技术进行有效探索。方法收集2014年至2017年呼和浩特市流感样病例监测资料及同期气象资料和空气质量因素资料,分析流感样病例与气象因素和空气质量因素的相关性,建立该地区流感样病例季节性自回归移动平均(seasonal autoregressive integrated moving aver
随着计算机网络的迅速发展,人们希望通过电子设备实现快速、远距离的交易,数字签名应运而生,并开始应用于现实社会中。数字签名已经在信息保密、身份认证、数据完整性、不可
后基因组时代的到来,生物信息学的研究重心日益从基因组测序工作转移到对已测序基因组的功能进行注释。传统的基于同源性的注释方法由于自身存在的缺陷在精确度方面已经不能满