论文部分内容阅读
本文主要研究了挖掘XML频繁查询模式涉及的技术、方法,所做的主要工作如下:
首先,讨论挖掘XML查询模式相关的XML、XQuery、关联规则和聚类技术;分析和比较以关联规则为基础,挖掘XML频繁查询模式的各种算法的特点,总结它们的优缺点。
其次,对目前性能最好FastXMiner算法深入的研究,并实现了该算法。
然后,提出一种基于网格和密度的聚类算法。将XML数据有效的划分,根据密度的阈值和DTD引导寻找子空间,利用图的连通算法将单元格有效的连通,高密度的连通空间就是频繁查询模式。算法的优点是避免FastXMiner算法对候选有根子树的树的包含测试需要的时间开销。
最后,提出在线挖掘频繁查询模式算法的框架。针对XML流查询是连续的,查询处理所使用的内存远远小于数据流本身,查询处理过程中数据仅仅能够被扫描一遍等特点,挖掘频繁出现的共享路径并将其综合到一个结构中,从而避免重复操作。该算法能确保高速缓存在线挖掘的高效性,同时确定当前“热点”的查询模式,并且能捕捉查询流的更新趋势和模式达到提高查询效率的目的。