论文部分内容阅读
随着数据采集和处理技术的不断发展和进步,使得人们对不确定性数据的认识逐步加深,对不确定性的概率数据的研究也获得了广大科研工作者的更加广泛的关注。XML是由W3C所发布的一种标记语言。XML所具有的灵活特性非常适合描述、表示、存储,不确定性数据,利用XML表示不确定性数据正越来越多的应用于各个不同的领域中,进而导致概率XML文档的数量呈现出急剧增长的态势。使用传统的XML聚类和查询技术处理海量概率XML文档所造成的时空消耗令人无法接受。尽管针对不确定XML聚类和查询的技术的研究已经有很多,但仍有一些方面需要进行改进和完善。针对概率XML文档的查询研究,本文深入研究了当前已提出的方案,分析了其中存在的问题,并对这些问题提出了针对性的改进策略。本文所做的工作有:第一,直接聚类XML文档精度较高但存在时空消耗大等缺点,利用聚类DTD文档的时空消耗较小的优势,提出了基于DTD的XML文档聚类方法WSDTD。DTD文档可以从一定程度上反应出XML文档的内容和结构,通过聚类XML文档对应的DTD间接聚类XML文档。定义DTD文档对应的树形结构的结构相似度和语义相似度,用K-Means聚类算法对DTD文档树进行聚类,达到对XML文档聚类的目的,从而有效地缩小了查询范围,为海量XML文档查询奠定基础。第二,针对概率XML文档的特点,本文设计了概率XML文档的查询算法pTwigList。在TwigList算法的基础上,加入了 Top-K关键字查询思想,进行了三次阈值过滤,对存在概率较低或非法的查询结果予以舍弃,形成了 pTwigList算法。并辅以改进的区域编码,这样就能达到查询概率XML文档的目的。第三,通过仿真实验验证本文所提出WSDTD和pTwigList的有效性。实验采取了查询时间来衡量查询效率。仿真实验分成两个部分,第一部分用来验证先使用WSDTD算法聚类,后使用pTwigList进行查询的时间消耗小于直接对海量XML文档进行pTwigList查询。第二部分用来验证pTwigList算法在不同的测试用例下、不同的K值下、不同的文件大小下的有效性。通过与其他算法的结果对比,验证方法有效减少了查询时间。结果表明,本文提出的方案减少了概率XML查询时间。