强跳跃显露模式挖掘算法及其应用

来源 :湖南大学 | 被引量 : 0次 | 上传用户:liyibo6941
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘中一个很重要的研究课题,在神经网络、统计学以及机器学习等领域得到了广泛的研究,但是大部分分类算法适用于小型数据集。强跳跃显露模式(Strong Jumping Emerging Patterns, SJEP)是近年来提出的一种新颖的知识模式,它具有很强的区分能力。针对大型数据集而提出的基于SJEP的分类算法具有较高的分类准确度。本文主要针对SJEP的挖掘及分类算法做了一系列的研究,主要工作和贡献包括以下几点:(1)针对基于SJEP-树的挖掘算法在挖掘过程中存在的冗余等问题,提出一种基于排序SJEP-树的改进SJEP挖掘算法,该算法在头表中设定标记域,过滤大量冗余的JEP;同时,在树节点中存放项名在头表中相应的序号,简化构造排序SJEP-树和后缀子树的复杂度;引入邻接表存储SJEP,减少JEP的比较次数。实验结果表明,改进后的算法的运行效率高于SJEP-树挖掘算法;(2)针对SJEP-树挖掘算法中存在的冗余问题,以及P-树挖掘算法频繁合并子树的问题,提出一种新颖的基于SP-树的SJEP挖掘算法。该算法先统计该项横向链表上不同节点的数目,然后判断是否需要进行子树合并,减少子树合并的次数,并且在合并和遍历子树的时候,动态设置子树节点中序号域的值,删除冗余的树枝。实验结果表明,SP-树挖掘算法挖掘SJEP的时间性能要优于SJEP-树挖掘算法;(3)采用分层十-折交叉验证方法来评估SJEP分类算法的分类性能。实验结果表明,对于同一数据集,在不同的最小支持度阈值下,分类准确度不同,并且若选取合适的最小支持度阈值,能够利用较少的SJEP达到较高的分类准确度。(4)分析比较SP-树挖掘算法和STSJEP-树挖掘算法的时间性能,实验结果表明,对于同一数据集,在同一最小支持度阈值下,SP-树挖掘算法挖掘出SJEP的时间性能要优于STSJEP-树挖掘算法。
其他文献
随着互联网技术的发展和普及,人们的生活越来越离不开网络。但网络生活在给人们带来便利的同时,也带来了安全方面的一些威胁,比如网游帐号被盗、QQ号码被盗、甚至网银帐号被盗,而
近年来,随着低功耗、高速率无线通信协议的提出,利用低成本、低功耗及易集成的CMOS工艺实现射频集成电路已成为当前研究的热点。低噪声放大器(LNA)作为射频前端的重要功能单
随着互联网络技术的发展,万维网作为一种新兴的信息媒介已经越来越多的渗入到社会的经济、文化、教育以及娱乐等各个领域,并作为其中的重要组成部分,改变着我们的工作和生活。主
随着分布式应用的发展,基于web服务的分布式模型己成为开放网络环境下一种典型的Internet应用形态。但是由于web服务环境的开放性和欺骗性的特征,为了降低交易风险和保证交易
随着以计算机和网络通信为代表的信息技术的迅猛发展,现代政府部门、军事军工、金融机构和商业组织等对网络安全的要求也越来越高。在当前窃密程序种类千变万化、攻击手段层
ECT/ERT双模态成像技术是一种新型电成像技术,在工业检测中具有广阔的应用前景。目前传统ECT/ERT双模态成像系统中连接数据采集部分和成像终端多采用有线连接的方式,存在电缆
无线Mesh网(以下部分和WMN交替使用),又称无线网格网或无线网状网,是从移动Ad-hoc网中分离出来,同时沿袭了部分WLAN技术的全新的无线网络技术。严格来讲,WMN是一种新型的无线
在社会化标签推荐系统中,标签模糊和冗余的存在不但影响了系统的推荐质量,而且使得标签推荐系统不能得到准确的评估。如果将标签模糊和冗余应用到标签推荐系统当中,就可以提
红松是我国珍贵的树种,其经济效益非常可观。为了更好的保护红松和提高红松球果的产量,应该采用现代化的信息手段对红松的结实量进行预测研究。本文主要研究的是关于红松的球
面对“人们被数据淹没,却饥渴于知识”的挑战,数据挖掘(data mining)和知识发现(knowlegde discovery)应运而生,并得以蓬勃发展。关联规则(association rules)挖掘是数据挖掘众