概率XML文档的查询研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:wei145000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据采集和处理技术的不断发展和进步,使得人们对不确定性数据的认识逐步加深,对不确定性的概率数据的研究也获得了广大科研工作者的更加广泛的关注。XML是由W3C所发布的一种标记语言。XML所具有的灵活特性非常适合描述、表示、存储,不确定性数据,利用XML表示不确定性数据正越来越多的应用于各个不同的领域中,进而导致概率XML文档的数量呈现出急剧增长的态势。使用传统的XML聚类和查询技术处理海量概率XML文档所造成的时空消耗令人无法接受。尽管针对不确定XML聚类和查询的技术的研究已经有很多,但仍有一些方面需要进行改进和完善。针对概率XML文档的查询研究,本文深入研究了当前已提出的方案,分析了其中存在的问题,并对这些问题提出了针对性的改进策略。本文所做的工作有:第一,直接聚类XML文档精度较高但存在时空消耗大等缺点,利用聚类DTD文档的时空消耗较小的优势,提出了基于DTD的XML文档聚类方法WSDTD。DTD文档可以从一定程度上反应出XML文档的内容和结构,通过聚类XML文档对应的DTD间接聚类XML文档。定义DTD文档对应的树形结构的结构相似度和语义相似度,用K-Means聚类算法对DTD文档树进行聚类,达到对XML文档聚类的目的,从而有效地缩小了查询范围,为海量XML文档查询奠定基础。第二,针对概率XML文档的特点,本文设计了概率XML文档的查询算法pTwigList。在TwigList算法的基础上,加入了 Top-K关键字查询思想,进行了三次阈值过滤,对存在概率较低或非法的查询结果予以舍弃,形成了 pTwigList算法。并辅以改进的区域编码,这样就能达到查询概率XML文档的目的。第三,通过仿真实验验证本文所提出WSDTD和pTwigList的有效性。实验采取了查询时间来衡量查询效率。仿真实验分成两个部分,第一部分用来验证先使用WSDTD算法聚类,后使用pTwigList进行查询的时间消耗小于直接对海量XML文档进行pTwigList查询。第二部分用来验证pTwigList算法在不同的测试用例下、不同的K值下、不同的文件大小下的有效性。通过与其他算法的结果对比,验证方法有效减少了查询时间。结果表明,本文提出的方案减少了概率XML查询时间。
其他文献
本文工作是国家“十一五”科技攻关项目“掌纹自动识别系统关键技术研究”的一部分,主要研究脱机掌纹识别的特征提取与过滤,以及多模式掌纹比对问题。在脱机掌纹中,特征数量
学位
随着互联网技术的飞速发展,XML(Extensible Markup Language)已逐渐成为互联网环境中数据交换和表示的事实标准。如何有效地使用XML并实现对XML数据的查询成为互联网发展的重
随着信息时代的发展,传统的高速公路收费方式也面临着变革,而电子收费方式则是一个很重要的方向。传统的全人工收费以及半自动收费方式存在的主要弊端有:(1)收费中的贪污作弊
空间分析是空间信息系统的核心和关键功能之一,也是评价一个空间信息系统功能强弱的重要指标。叠置分析是空间分析的基本功能之一,也是众多空间分析方法的基础。根据不同的数
图像去噪是图像处理方面的一个经典问题,近年来该问题主要采用多尺度几何分析理论进行研究,其中将多尺度几何分析理论与隐马尔可夫模型(HMM)相结合是该领域中的一个研究热点
在网络飞速发展的今天,海量的信息让人们感到迷惑,这种局势使得推荐系统成为了个性化研究领域的热点。协同过滤算法则是推荐系统中使用得最多、最成功的算法。由于相似度计算在
20世纪计算机的诞生,推动了互联网技术的发展,开启了人类社会的网络信息时代,无形中被复杂繁多的数据包围。数不胜数的“网络”以有形和无形的方式融入到生活中,从有形的电信
随着移动终端软硬件和无线网络传输技术的迅速发展,人们期望在无线平台上开发种类更多,功能更强的应用软件,即移动增值应用。但是移动终端种类众多,并且没有一个统一的应用程
学位
移动互联网的发展使得移动用户访问互联网变得越来越方便,这样的发展也吸引了更多的用户加入到移动互联网的体验中。移动技术摆脱了有线连接的束缚,能在任何时间、任何地点访
学位
我们知道本体的一个主要作用是在共享语义层上进行数据交换。在万维网上有越来越多的本体被构建和使用,并开始用本体的语义规范指导数据交换,以取代旧的方式。然而,随着本体