频繁模式挖掘算法与剪枝策略研究

来源 :兰州大学 | 被引量 : 23次 | 上传用户:Carlower
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁模式挖掘是一类基本的数据挖掘问题,可以广泛应用于关联规则分析、相关性分析、孤立点分析、分类和聚类等多种数据挖掘任务,是一个具有重要理论意义和广阔应用前景的课题。本文对频繁模式挖掘问题进行了深入研究和探索,主要内容如下:1.对频繁序列挖掘问题进行深入研究,探讨典型的挖掘算法—GSP、SPADE、SPAM、PrefixSpan,在此基础上,应用新的扩展策略,提出了一种全新的、高效的频繁序列挖掘算法—FINDER。该算法采用深度优先策略枚举搜索空间,使用垂直位图与水平位图向量格式表示项集、事务数据库、序列,摒弃了以往算法所采用的复杂的散列技术和数据库的多遍扫描。FINDER算法采用频繁项集序列扩展策略,最大限度地减少非频繁扩展。最后采用权威数据集生成程序生成测试数据集,验证算法的正确性与有效性。新算法FINDER的效率虽然没有SPAM高,但是,效率接近于SPAM,与其他典型的算法相比,效率提高约3~5倍。2.对FINDER算法进行改进,采取格理论对枚举空间进行划分,设计并行序列挖掘算法pFINDER。pFINDER继承了FINDER的特性,仍然没有采用散列技术,具有较好的局部性特征。pFINDER采取中间数据的划分技术,减少了远程数据的同步与数据传输。因此,pFINDER算法具有良好的可伸缩性。3.结合加权频繁序列挖掘问题,改进FINDER,设计交互式加权频繁序列挖掘算法。该算法采取项重命名机制,把加权项转化为平凡项,使之适合于有效的频繁序列挖掘算法,简化了加权序列挖掘问题,特别适合于交互式挖掘。该算法对于实际应用特别有效。4.频繁模式挖掘是一项十分复杂的I/O密集型和计算密集型的挖掘任务,搜索空间的剪枝是有效提高效率的手段。通过对频繁模式挖掘算法搜索空间的深入研究,在认真分析现有剪枝策略的基础上提出新的搜索空间剪枝策略SEP和IEP。同时证明了相关的定理与推论,保证了两种剪枝策略的理论正确性。5.对典型的频繁模式挖掘算法进行分析,应用新的剪枝策略SEP与IEP,对文献资料上普遍认为比较高效的SPAM、SPADE、MAFIA、CHARM等频繁模式挖掘算法进行改进,形成新的频繁序列挖掘算法或频繁项集挖掘算法SPAM+、SPADE+、MAFIA+、CHARM+,结合公认的测试数据集或测试集生成程序,对各算法进行实验,并进行对比分析,以验证剪枝策略的正确性与有效性。实验表明,利用剪枝策略SEP、IEP改进后的算法SPAM+、SPADE+、MAFIA+、CHARM+分别比原来的算法效率提高最多达10倍,对大数据集,效率的提高也在30%~50%。6.所提出的SEP与IEP剪枝策略不仅可以大大改善算法的性能,同时,通过对多个算法的改进,也表明了该策略可以被多种算法和挖掘问题共用,表现了SEP、IEP独立于挖掘算法的特性。
其他文献
随着科学技术、管理方法以及社会经济和制造环境的改变和发展,为了能够更好地适应新环境和新形势的要求,应将现代化的信息管理方法与现代印刷成本管理理念和原理以及企业的实
复杂应力状态下岩石的强度特征及其破坏行为一直以来是土木水利工程及相关领域中非常重要且异常复杂的研究课题之一。随着岩石工程不断向深部发展,其所处的地质和应力环境变
<正>近年来随着术后辅助化疗几项大规模Ⅲ期临床试验IALT的结束和LACEMeta分析结果的报道,对于Ⅱ期和ⅢA期患者术后辅助化疗的意义逐步形成共识,但是对于Ⅰ期患者是否需要接
区域经济是一个地区最具创新活力的部位,其协调发展关系着国民经济的整体发展状况和社会大局的稳定与繁荣。每个区域都有其独特的自然、社会和经济条件。如何调整产业结构和
药品中的残留溶剂是指在原料药或赋形剂的生产中,以及在制剂制备过程中产生或使用的有机挥发性化合物。由于它们在工艺中不能完全除尽,残留在药品中,不仅没有疗效,还增加药物
目的:观察益肾活血方加TCRA治疗肾虚血瘀型人流后月经过少的临床疗效并探讨其作用机理。方法:观察患者60例,治疗组30例,TCRA后予益肾活血方加减,对照组30例,TCRA后口服坤灵丸
为了适应电力系统的自动化改造和现代化电能管理的需要,本文设计了集测量、控制、保护、通讯于一体的智能保护测控设备。设备采用了模块化结构,根据实现功能的不同,而将设备
蒙古族婚姻是该民族历史传统、周边文化影响及社会发展的共同产物。本文以内蒙古通辽市蒙古族村落的实地调查材料为依据,通过四个不同类型村落资料的横向比较以及1996年调查
<正>1目录流程和评价(ESOPH-1)T1-T4,N0-1,NX或ⅣA期,体格健康,可切除(ESOPH-2)手术结果(ESOPH-3)身体情况不适合手术,不可切除的T4,或不选择手术(ESOPH-4)复发与姑息治疗(ES
我军大多现役雷达仍延用六、七十年代以来的技术和设备,其功能几乎全部由硬件完成,已无法适应现代战争的需要。如何充分利用雷达技术的最新成就,开发、研制新一代雷达探测设