基于eEP的两阶段方法分类研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:sollovewj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘中的一项非常重要的任务,几十年来一直是统计学、机器学习、神经网络和专家系统等领域内的一个重要研究课题。目前在政府组织、科学研究、商业等领域有着广泛的应用。在解决数据挖掘领域中的分类问题时,基于规则的建模技术是很受欢迎的。但是,传统的基于规则的分类算法多数采用顺序覆盖技术来训练分类规则,这种方法有着自身无法很好解决的问题,在稀有类分类中这种问题更加突出。基于此,Ramesh Agarwal和Mahesh V.Joshi于2000年提出了基于规则的两阶段方法,实验结果表明,两阶段方法能够很好地用于分类,特别是在稀有类分类时取得了比其它分类算法更好的效果。 1999年Dong等人提出了一种被称作显露模式(Emerging Pattern,EP)的新的知识模式,并受到了数据挖掘界的广泛重视。基于EP的分类算法通过聚合多个EP的分类能力来分类,综合考虑了不同数据集在多组属性上的差异,能够弥补传统分类方法(如决策树方法)只考虑一组属性而形成的缺陷,取得了很好的分类结果。然而,对于稠密数据集和高维数据集来说,EPs的数量巨大,因而增加了算法的时空复杂度。2000年Fan和Ramamohanarao又提出了一种特殊形式的EP:eEP(Essential Emerging Pattern,基本显露模式),有效地解决了一般形式的EP在分类时的冗余问题,同时又不会丢失太多对分类有用的信息。 本文结合两阶段思想和eEP在分类方面的优势,提出了一种新的分类算法——基于eEP的两阶段方法分类(Classification of Essential Emerging Pattern in Two Phases,CEEPTP)。该算法使用两个阶段挖掘eEP并用于分类,分类时考虑第二阶段对第一阶段的修正作用,这与TPCEP有些相似之处。与TPCEP不同的是,我们在分类时采用了以增长率为标准的评分策略,充分利用了eEP的区分能力;同时,我们通过调整第二阶段的权重,使之更好地发挥对第一阶段结果进行修正的辅助作用。实验结果表明,CEEPTP在UCI机器学习库中的11个数据集上可以取得与已有的几个优秀分类算法如NB,C4.5,CBA,CMAR,CAEP,BCEP相媲美的整体分类效果。同时,我们还将CEEPTP与TPCEP、CEEP分别在多个数据集上作了分类准确率对比,表现出较好的性能。最后,为了显示对第二阶段作用的调整产生的影响,我们将调整前后的结果作了对比,结果表明,调整后的结果比调整前有了一定的改善。
其他文献
该文的研究工作着重于人脸弹性图匹配算法的分析和人脸面部特征定位的研究.在文章中,通过对人脸弹性图匹配算法中迭代搜索策略过分复杂问题的阐述,详细分析了Gabor小波变换系
随着计算机技术和医学影像技术的迅猛发展,供临床医生诊断的医学影像设备类别与日俱增。由于各类传感器具有迥然不同的成像原理导致了单一类别传感器生成医学影像中包含的数
虚拟数据库技术是近几年兴起的一种新型的数据集成技术,它是计算机网络和数据库技术交叉应用的结果。建立虚拟数据库的目的是为用户提供一个透明访问Internet站点和其他数据源
资源的共建共享是远程教学的重要研究方向。基于互联网的现代远程教育在学习资源的建设方面把资源是否有利于管理、查询,是否有利于共建和共享放在重要的地位。目前,国内外各种
该文的研究工作是针对基于三维多分辨率形变模型的人脸识别方法展开的,主要包括三维人脸对齐以及复杂光照条件下的多姿态人脸识别两方面的内容.三维多分辨率模型与Fisher线性
电网GIS信息服务平台是一种结合计算机信息管理技术、设备管理系统以及地理信息系统的新型的管理系统。在这套平台中,不仅可以管理传统的属性、图像文件,更加重要的是它具有强大的网络拓扑分析功能,能够更加迅速有效的处理电力系统特别是复杂的配电网络中的各种问题。本文主要就是对电力GIS中关于网络拓扑的关键技术进行了深入研究。首先在介绍完GIS平台的技术框架、体系结构和功能设计之后,本文对GIS中的空间数据及
网络的本质及其最大特点在于资源的共享.由于目前带宽及处理能力等的限制,使得我们的沟通中出现了很多中间环节,如中间服务器、门户网站、第三方信息(交易)平台等.对等网络技
随着互联网的迅速发展,人们对移动接入互联网的需求越来越强烈,如何为移动在外的办公人员提供一种便捷、安全的访问家乡网络资源的问题摆在我们的面前。本论文以IETF提出的移动
随着时代的发展,各方面数据量快速增长,数据挖掘技术应运而生并广泛应用于各个领域。 本文旨在对化学工程实验过程中获得的实验数据进行数据挖掘,发现实验数据中隐藏的关联规
近几年来,数字水印研究得到越来越多的重视,并成为信息安全领域的研究热点.与此同时,对于数字水印的攻击也越来越多,其中以解释攻击最难于防范.该文通过深入分析解释攻击的原