频繁模式压缩综述

来源 :科技风 | 被引量 : 0次 | 上传用户:jsjyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:频繁模式挖掘是指挖掘数据库中频繁出现的模式,但挖掘全部频繁模式的方式往往会产生数量巨大的模式,不仅降低了挖掘效率,与此同时增加了用户获取重要信息的难度。本文对最大模式挖掘和闭合模式挖掘这两种频繁模式压缩技术进行了介绍和综述。在此基础上对序列模式挖掘中应用模式压缩技术进行了总结与展望。
  关键词:序列模式挖掘;频繁模式;最大模式;闭合模式
  随着云计算、移动互联网和物联网等新一代信息技术的广泛应用。多样的、海量的全球数据以爆炸般的速度快速生成,这意味着人类已经进入大数据的信息时代。在面对海量数据信息,数据库中存储的数据量急剧膨胀,如何从海量且繁杂的信息中提取价值信息成为亟须解决的难题。传统的模式挖掘只是挖掘满足最小支持度阈值的频繁子序列,挖掘出的频繁模式完全集往往包含数量巨大的模式且大量冗余信息。随着序列模式挖掘应用领域越来越广泛,用户对于序列模式挖掘提出了更为苛刻的要求,挖掘全部频繁模式往往满足不了用户的需求,这样不仅需要花费大量的时间,而且用户很难在结果集中获取有用的信息,因此压缩模式集的技术成为众多学者的研究热点。
  一、最大模式
  定义(最大模式)若存在一频繁模式,其所有超模式都为非频繁模式,则称该模式为最大模式。
  模式挖掘技术的主要是根据模式满足Apriori性质,即频繁模式的所有子模式都是频繁的,非频繁模式的所有超模式都是非频繁的。虽然在利用Apriori性质进行频繁模式挖掘的过程中,可以有效地剪枝,但是这样同时造成了模式集的规模呈指数性增长问题。最大模式挖掘作为一种有效的模式压缩技术,在不改变用户设定的最小支持度阈值前提下,挖掘出的序列模式集更加简洁,有效减小频繁模式集的规模,很大程度上减少了数据冗余,并且保留了数据集的表达能力。
  最大模式挖掘算法按照模式搜索策略可以分为两种:深度优先搜索和广度优先搜索。深度优先搜索以DepthProject算法为代表,DepthProject算法对字典树进行深度优先搜索,根据选择性投影数据库原理进行模式支持度计算。该方法同时使用了超频繁模式剪枝策略,可以有效减少运行时间和内存空间的使用。广度优先搜索则以MaxMiner算法为代表。MaxMiner算法首次提出搜索空间树的概念,以集合枚举树作为搜索范围,采取与Apriori性质一致的宽度优先搜索策略,该算法将尾项集按照支持度降序排列,尽可能早地对项集进行剪枝,从而提高超集剪枝效率。
  二、闭合模式
  定义(闭合模式)若存在一频繁模式,不存在与其具有相同支持度的超模式,则该模式为闭合模式。
  在挖掘闭合模式算法中以CloSPan算法和BIDE算法为代表。CloSPan算法通过只挖掘频繁的闭子集而不是挖掘完整的频繁子集,在生成候选模式和消除非闭合模式的两个阶段,减少了时间和空间开销。它还利用了早期终止机制等技术,避免了不必要的搜索空间遍历、反向子模式和反向超级模式挖掘方法,吸收了一些不必要的模式。BIDE算法在对新模式进行闭合检查时,采用向前拓展事件和向后拓展事件的方式,可以有效地避免候选模式维护和检测问题。采用深度优先搜索,更加深度的剪枝搜索空间,在线输出频繁闭合模式,以更加有效的方式检测闭合模式。可以有效地减少内存消耗,提高运行效率。
  三、总结与展望
  挖掘最大模式是对全部频繁模式结果集进行压缩,较大幅度压缩了模式集规模,提供了频繁模糊与非频频繁模式之间的边界信息,但是与闭合模式相比并未提供最大模式子模式的支持度信息。而挖掘闭合模式保存了频繁模式结果集的全部信息,即模式的表达方式和支持度两种信息。但是由于闭合模式的定义过于严格,当支持度阈值较小时,闭合模式的结果集依然庞大。
  模式集压缩研究中,许多学者也提出了新的研究方向,如对比序列模式[1]挖掘的研究,挖掘序列数据库中对比度较高的模式集,从而挖掘出表现更加突出的结果集。同样Wu等人[2]设计了一个基于MAPB算法的启发式算法MAPBOK,该算法挖掘无特殊条件下不同长度模式下的前K种频繁模式,可以有效减少模式集规模。与此同时,为了挖掘出更加有价值的模式,学者们对模式的出现进行约束,提出了无重叠条件[3,4,5]序列模式挖掘。约束模式中项在序列中的匹配次数和位置,可以有效挖掘出更加有价值的模式,使挖掘出结果集更加简洁,更有意义。
  因此学者们需要在如何避免模式集中包含过多的冗余模式和减少模式集大小方面提出更加有效的挖掘算法,为用户提供更加精准的模式集方面做出更多探索。
  参考文献:
  [1]柴欣,高一寒,武优西,等.基于密度约束的對比模式挖掘[J].计算机科学,2019,46(12):2630.
  [2]Wu Y,Wang L,Ren J,et al.Mining sequential patterns with periodic wildcard gaps[J].Applied Intelligence,2014,41(1):99116.
  [3]Wu Y,Shen C,Jiang H,et al.Strict pattern matching under nonoverlapping condition[J].Science China Information Sciences,2017,60(1):012101.
  [4]武优西,王振坤,史巧硕,等.无重叠条件下的Topk序列挖掘[J].小型微型计算机系统,2019,40(10):21702174.
  [5]Wu Y,Tong Y,Zhu X,et al.NOSEP:Nonoverlapping sequence pattern mining with gap constraints[J].IEEE Transactions on Cybernetics,2018,48(10):28092822.
  作者简介:张帅(1994—),男,汉族,河北衡水人,硕士,学生,研究方向:序列模式挖掘。
其他文献
文章从人口、经济、社会、压力、状态5个方面构建城市化与生态环境测度指标体系,采用单因素方差和权重系数法对伊宁市城市化和生态环境综合指数进行计算,并运用耦合协调度模
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
交际法是以提高学生交际能力为目标的教学方法。它在英语教学中的应用满足了社会对英语人才的要求。文章首先阐述了交际法的基本原则,并指出了交际教学法的优点和实施中存在
该文以改性的硅胶为载体,通过戊二醛交联固定化碱性脂肪酶,得到较佳固定化条件:当戊二醛浓度为0.8g/L,给酶量为30U/g时,酶活回收率效率达到90%以上。通过改变溶剂的种类、给酶
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
在中药材种植规范化 (GAP)的前提下 ,实现中药饮片生产规范化 (GMP)、中药饮片质量的可控化在中药走向世界的进程中尤为重要。因此 ,必须迅速整顿中药饮片生产及流通市场 ,增
黄河流域旅游"蓝道"系统建设,是贯彻"黄河流域生态保护和高质量发展"重大国家战略的创新举措。通过打造集生态、安全、景观、文化、休闲为一体的"蓝道"系统,推动黄河流域生态
文章以平衡计分卡的基础架构建立逆向物流企业的绩效评估模式的战略基础;基于因子分析法建立了客观性的关键绩效指标选择机制;用网络分析法(ANP)建立了平衡计分卡的关键绩效评
辽宁电子口岸平台开通仪式日前在大连举行。它标志着辽宁省“大通关”服务迈上高效运行轨道,对提高辽宁对外开放水平,加快大连国际航运中心建设意义重大。据悉,辽宁电子口岸是辽
关系型数据库应用技术作为大数据时代信息领域支撑基础和软件学科的重要分支,仍然是计算机领域中最为广泛的应用技术。互联网的爆发诞生了大数据,也成就了MySQL。作为关系数