连续不确定XML的Top-k查询算法研究

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户：itshuai

【摘要】

：

在很多实际应用中，数据的不确定性是普遍存在的，例如传感器网络、信息抽取与数据整合系统、科学数据管理系统等。传统的关系数据库采用结构化的存储方式，不适用于不确定数据的存

【作者】

：

郑春红

【机构】

：

内蒙古科技大学

【出处】

：

内蒙古科技大学

【发表日期】

：

2013年期

【关键词】

：

p-文档模型扩展Dewey编码连续不确定XML Top-k查询

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在很多实际应用中，数据的不确定性是普遍存在的，例如传感器网络、信息抽取与数据整合系统、科学数据管理系统等。传统的关系数据库采用结构化的存储方式，不适用于不确定数据的存储和管理。XML以良好的可扩展性和自描述性，成为更适于描述不确定数据的半结构化语言，并且已经成为Internet上数据表示和交换的标准。不确定XML是研究者们提出的一种新的不确定数据表示方法，不确定XML的查询管理技术也因此成为研究的热点。由于查询不确定XML得到的每个结果都对应一个概率值，而用户通常对那些概率值较大的结果比较感兴趣，因此，不确定XML的Top-k查询技术受到了广泛的关注。目前，已提出的不确定XML的Top-k查询算法都没有涉及到连续不确定数据的处理，而在现实世界中，连续不确定数据是普遍存在的，例如温度传感器在某一时段所测得的温度服从某个高斯分布，啤酒厂某装瓶生产线在一年内的碎瓶数量服从某个高斯分布。因而，研究连续不确定XML的相关查询具有一定的现实意义。为了实现连续不确定XML的Top-k查询，首先对PEDewey编码进行扩展，用于支持连续分布类型节点的编码，然后以普通XML经典查询算法TJFast为基础，提出SPCProTJFast算法，在该算法中，对传统的归并算法进行了改进，并根据连续分布的性质设计了连续节点的过滤算法，在查询过程中结合多层过滤机制，达到了高效查询的目的。由于连续节点数量的增加以及概率下限值过小均会降低SPCProTJFast算法的查询效率，提出一种优化算法：HPCProTJFast算法，该算法首先利用概率下限值筛选出满足条件的Twig小枝，然后处理与查询相关的连续节点。由于推迟了对连续节点的访问，因此可以迅速提高概率下限值，增大了对连续节点进行过滤的可能性，从而提高了查询效率。通过具体的实验，将SPCProTJFast算法和HPCProTJFast算法同简单处理连续不确定数据的CProTJFast算法进行了对比。在实验过程中，通过改变文档的大小、k值和查询条件，分别对每种查询算法的查询时间和节点处理率进行统计分析。实验结果表明，SPCProTJFast算法和HPCProTJFast算法的执行效率明显高于CProTJFast算法，并且HPCProTJFast算法的效率更高。

其他文献

基于GPRS的生产实时数据在线监测系统研究

基于GPRS的生产实时数据在线监测系统不管在学术领域还是应用领域都非常具有研究价值。研究GPRS技术在工业生产中的应用,满足人们对工业生产实时数据的传输要求具有十分重要

学位

GPRS技术生产实时数据在线监测系统处理方式

可信的无线数字图像采集与传输系统关键技术研究

图像采集与传输系统是指将摄像头采集的图像实时的发送到控制室的过程，方便工作人员对监控场所进行管理和控制。图像采集与传输系统因其实用性强、布置方便、操作简单等优点被

学位

图像采集图像压缩水印嵌入数据加密数据完整性认证差错控制

基于LDA和图割的文本主题分割研究

文本分割的本质是根据文本内部的主题相似性获得分割之间的边界位置,使得分割内部具有最大的语义一致性而分割之间的语义一致相对较小。本文探讨基于LDA和图割的文本主题分割

学位

文本分割主题模型图割算法

本体概念匹配技术的研究与实现

本体作为语义网中的知识表现形式，近年来已经被广泛的应用到知识工程、人工智能和信息检索等研究领域。由于不同的组织或个人在本体构建中没有统一的标准，导致了本体异构的问题

学位

本体概念匹配显式语义分析维基百科

基于选择性集成学习的膜蛋白识别方法研究

自人类步入后基因组时代，蛋白质组学作为基因组学的下一个重要阶段受到越来越多学者的关注。其中，蛋白质识别和结构预测是蛋白质组学研究的基础环节。目前，生物信息学家开展膜蛋

学位

膜蛋白选择性集成学习最小错分样本交集识别方法

多级异构无线传感器网络高能效分簇路由算法

无线传感器网络WSN(Wireless Sensor Network)是将数据收集、处理和传输综合为一体的网络,它也是一种节点分布较随机、自组织相互协调合作、不需要基础设施的网络,在诸多领域

学位

无线传感器网络分簇路由多跳路由能量消耗

人工蜂群算法的改进及其在经济订货模型中的应用

经济订货批量(Economy Order Quantity,EOQ)是通过平衡各种成本核算使得库存总成本最低的订货量。经济订货批量的计算过程中,需要估计订单的数量以求得更加准确的结果。通过支持向量机(Support Vector Machine,SVM)能够对过往的订单数额进行计算,并预测之后订单数额,进而求得经济订货批量的数值。因此为使得支持向量机的学习效果更加准确,优化支持向量机的方法现已成为

学位

群体智能算法人工蜂群算法支持向量机EOQ

RUDP协议的形式化分析和研究

随着互联网技术的不断发展和网络用户的爆炸式增长,用户需求和网络应用趋于多元化。一些大型和复杂系统的应用使得现有的数据传输方式不能满足需要,对性能更高和可靠性强的通

学位

RUDP协议形式化建模与分析有限状态机Z语言着色Petri网

无线传感器网络密钥管理与安全认证技术研究

论文研究了无线传感器网络密钥管理与安全认证技术。首先介绍了传感器网络的网络架构分类：分布式传感器网络和层簇式传感器网络；其次介绍了无线传感器网络的应用场景，并由此引出

学位

无线传感器网络密钥管理安全认证椭圆曲线加密

恶化环境下带多个维修活动的调度算法研究

调度问题这些年已经成为计算机科学中的一个重要问题,其中计算复杂度分析,CPU调度算法的选择,云计算与网格计算中的资源调度和任务调度等问题已经成为研究热点。以上都和经典

学位

磁盘整理计算复杂度调度恶化效应改变速率的活动算法设计

连续不确定XML的Top-k查询算法研究

其他学术论文