概率XML文档中Twig查询处理算法的研究与实现

来源 :东北大学 | 被引量 : 6次 | 上传用户:eworld5008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,XML作为信息存储和数据交换的标准被广泛采用,由于客观世界的复杂性,不确定数据存在于一些应用领域。通常不确定信息以概率值的形式在XML文档中表示,这样的文档称为概率XML文档,概率XML文档受到大家越来越多的关注。普通XML文档的查询处理已提出许多算法,但概率XML文档的查询处理研究较少,本文提出了p-TJFast算法和ProFirstTwig算法。p-TJFast算法是传统TJFast算法的改进,改进后的p-TJFast算法能够处理概率XML文档。概率XML文档不同于普通XML文档,其数据的存在具有一定的概率值,为了能够在概率XML文档中进行Twig模式查询,需要对扩展Dewey编码进行相应的改进,增加概率信息。由于概率XML文档中数据存在的概率特性,低概率的结果被舍弃,算法运行的过程中加入过滤操作。实验结果表明p-TJFast算法能够很好地实现概率XML文档查询处理。ProFirstTwig算法采取的编码方式和p-TJFast算法相同,但与p-TJFast算法不同的是ProFirstTwig算法的标签流是概率序排列的,而包括p-TJFast算法在内的大多数算法的标签流都是基于字典序排列的。基于概率序标签流而提出了概率序标签流的下界的概念,概率值低于下界的标签流元素不被处理,这极大地减少了被处理的元素个数,同样地,ProFirstTwig算法运行的过程中加入过滤操作。实验结果表明ProFirstTwig算法处理简单查询时具有较高的效率。
其他文献
随着计算机视觉,图像学等技术的不段发展与进步,通过扫描设备可以方便的取得模型的散乱点云数据,在曲面逆向重建的过程中,可能由于模型自身的不完整或物体遮挡等因素,难免会
生产调度是制造系统的基础,有效的调度方法和优化技术的研究与应用,是实现先进制造和提高生产效益的基础和关键。车间调度是一类典型的生产调度,从数学规划的角度看,车间调度可以表达为:在等式或不等式约束下,优化目标函数。几十年来,车间调度问题的研究得到了快速的发展,然而研究的重点大多集中在单资源车间调度问题,即只考虑机器设备的车间调度问题而忽略了具有操作能力工人的限制。现实生产中为了完成一个工作,往往机器
现今的网管测试管理多数是人工管理,导致测试人员不能及时、充分地交流信息,难以掌握项目进度,测试流程不统一、不规范,资料、数据等不易共享,维护测试文档、统计测试结果、
基于属性的公钥密码体制由基于身份的公钥密码体制发展而来。在基于属性的公钥密码体制中,实体的身份被视为一系列属性的集合。相较于基于身份的公钥密码体制和传统的基于证书
数字城市概念的提出源自于1998年美国副总统戈尔在美国加利福尼亚科学中心发表的题为“数字地球:二十一世纪认识地球的方式”的讲演,其核心思想就是利用信息技术尽可能处理地
面对复杂多变的网络化世界,尤其是“互联网+”概念的提出,更是把互联网融入了人们生产生活的各个方面,使得市场环境呈动态化发展。面对交流层次的不断增加,市场环境纷繁复杂,不可预测,企业的生产经营不再处于单一化、简单化的状态,企业驻留的环境越发复杂,处于动态变革的市场环境中,从而所面临的竞争压力也一日千里。企业如何在动态竞争中独善其身,取得竞争优势是每个企业最关注的核心问题,因此,企业必须从自身出发,结
功耗问题已日渐成为当前处理器设计领域所面临的严峻挑战。随着处理器芯片上功耗密度的增加,其芯片运行温度也将随之上升。过高的处理器温度将严重损害处理器的可靠性和寿命
EEG(Electroencephalography)是通过医学扫描仪器将人体脑部自身产生的微弱生物电放大记录而得到的曲线图。它是由人脑皮层神经元放电产生的电位组成,具有非侵入、无损伤、高
大规模无线传感器网络较传统无线传感器网络表现出更多异构性、不均匀性以及不一致性,感知数据在类型上具有复杂化与多样化特征,在数据规模上具有大数据特征,导致传统无线传
随着互联网上信息的暴增,用户很难在互联网上查找到自己想要的信息。为了解决此问题。搜索引擎诞生了。同时经专家统计发现,人们在利用搜索引擎查找信息时,他们绝大多数情况