频繁子树挖掘及其剪枝策略研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:hudawen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁子树挖掘是一个重要的数据挖掘问题,其主要任务是从大型数据库中挖掘出频繁子树模式。由于其广泛的应用领域,已涉及到XML数据库、分子数据库、关系数据库、图形数据库等应用和研究领域,频繁子树挖掘已经引起了数据库研究人员和实践者的强烈关注。现有的频繁子树挖掘算法大都基于Apriori性质,主要包含候选模式的生成和支持度计算两个主要步骤。在候选模式生成阶段,所有的(k+1)阶候选模式都是由频繁的k阶模式连接生成的。这些算法的主要瓶颈在于会生成大量的候选模式,显然对于这样大量的候选模式做的支持度计算所花费的代价是十分昂贵的。事实上大量的子树候选模式是非频繁的或者说在数据库中根本就不会出现。本文分析了现有频繁子树挖掘算法中采用的剪枝策略,在此基础上我们提出了一种新的剪枝策略F2SC (Frequent 2-Subtree Checking)。该策略将所有的频繁2阶子树保存在一张哈希表中,当生成k阶子树候选模式(k≥3)时,可通过检测那张保存了F2的哈希表来对非频繁的候选模式进行剪枝。F2SC可用于所有的基于Apriori性质的频繁子树挖掘算法中。为了验证测剪枝策略F2SC的有效性,我们将它应用于经典的子树算法TreeMiner中,并提出改进算法TMp。最后,通过对TreeMiner和TMp的比较来评价F2SC的有效性。实验结果表明,TreeMiner在提出的剪枝策略F2SC上得到了很好的改进,主要表现在有效的减少了候选模式的生成以及降低了支持度计算的代价。
其他文献
随着互联网的迅速普及和广泛应用,网络信息资源的数量及网站设计的复杂度也呈急剧增长趋势。一方面,人们越来越多地关注如何快速有效地从繁多的网络信息中寻找到潜在的、有价
智能变电站(Smart Substation)是智能电网(Smart Grid)的重要组成部分,汇集了智能电网的电力流、业务流和信息流。而智能变电站网络信息流的可靠性、实时性等可以反映该网络的性能。网络中隐含的网络拥塞、数据丢失、广播风暴等诸多异常风险会影响变电站网络信息流的实时性和可靠性,进一步影响二次系统的可靠运行。因此,研究智能变电站网络信息流的可靠性具有非常重要的现实意义。变电站数字化、智
TCP/IP协议组是Internet的基础,其拥塞控制机制保证了Internet高层数据传输的稳定性和可靠性。无线网络具有高误码率、经常变化的带宽、以及长延时等诸多特性。传统的TCP协议
基于内容的图像检索(Content-Based image retrieval)具有广泛的应用前景。当前国内外对此技术的研究方兴未艾。图像检索是一门融合了各种方面的技术。本文侧重图像底层特征
电力系统短期负荷预测关系到电力系统的平稳调度。负荷预测的精度直接影响到电力系统的经济性和稳定性,智能电网对负荷预测的实时性要求也越来越高。因此,国内外学者一直将短期电力负荷预测作为研究重点。研究发现,电力负荷受众多因素的影响,其中学者在研究过程中选取最多的是气象因素和日期因素。本文选取某地区的真实负荷数据,对其特性进行了分析,并采用垂直和水平数据处理方法对负荷数据进行了前期的预处理,利用相似度法分
可扩展标记语言XML(Extensible Markup Language)以其独有的特点在网络数据表示和信息交换中扮演着极其重要的角色。为了保证XML文档的传输安全,有关机构制定了一系列XML安全
无线通信和移动数据库技术的快速发展,使得移动用户在任何时间、地点查询任意信息的设想成为现实。位置探测设备(例如便携式电话、GPS、RFID等)的出现更引发了一个新的研究领
Web服务的出现代表了分布式计算的新要求,较好地解决了异构应用之间及松散耦合环境下的互操作和集成问题。随着Web服务的发展与应用,Web服务组合技术成为Web服务研究的关键问
随着数字信息技术和网络技术的高速发展,计算机的发展走入了“后PC”时代,嵌入式数据库技术作为未来最有影响的技术方向之一,已经成为当今数据库领域的发展焦点。同时嵌入式I
随着智能电网建设的不断发展,电网量测设备升级更新,量测数据的规模已经由原来的GB级飙升到现在的PB级。智能电网要求对这些海量数据进行高效安全的存储,云存储系统为智能电