Boosting基于EP的分类器提高分类准确率

来源 :郑州大学 | 被引量 : 0次 | 上传用户:ilytotti
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘又称数据库中知识发现,是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务,在商业、金融、电讯、DNA分析、科学研究等诸多领域具有广泛的应用。统计学、机器学习、神经网络等领域的研究者提出了很多分类方法,大部分算法是内存驻留算法,适用于小型数据集。随着数据集的数据量和维数的增加,建立高效的、适用于大型数据集的分类法已成为数据挖掘的一个挑战性任务。基于显露模式(Emerging Pattern,EP)的分类方法是针对大型数据集的分类提出的,EP是G.Dong和J.Li提出的一种新的知识模式,这些模式能够捕获目标类和非目标类上多组属性之间的不同,具有很好的分类性能。相关研究表明,基于EP的分类算法的平均分类准确率优于决策树等传统算法,显示了EP在分类方面的优越性。另一方面,提升(Boosting)与装袋(Bagging)以及其他基于委员会的方法能够显著改善某些算法的分类准确率。基于委员会的方法试图通过合并多个弱分类器建立一个有效的委员会来构造一个更加有效的分类器。现有的组合分类方法研究主要使用决策树、神经网络以及贝叶斯方法作为基分类器,其他类型的分类算法还有待进一步研究。本文首次提出了一种Boosting基于EP的分类器提高分类准确率的算法BoostEP(Improving ep-based classifiers via Boosting)。算法使用基于eEP的分类方法建立基分类器,eEP是一种最具表达能力的、特殊的EP,称为基本显露模式。它不仅具有显露模式的优点,可以用来构造准确的分类器,而且数量比显露模式少很多,可以快速方便地挖掘和使用。BoostEP使用Boosting技术建立多个基于eEP的基分类器形成组合分类器,并对每个基分类器预测加权投票得到未知样本的类标号。为了测试算法的分类性能,使用了UCI机器学习数据库的21个基准数据集为实验数据集,并将实验结果与NB、C4.5、CBA、CAEP等优秀分类法比较,结果表明,BoostEP具有更好的分类准确率。和BaggingEP分类法相比,实验还表明Boosting能够提高基于EP的分类方法的性能。
其他文献
μC/OS-Ⅱ是一种可移植、可固化、可裁剪的多任务实时操作系统,由于其源码公开、注释详尽、内核设计概念清晰,已成为目前广泛使用的嵌入式操作系统。80x86体系结构在嵌入式领域
鲜花虚拟建模和仿真技术被广泛应用于计算机动画、游戏以及可视化等领域。针对已有造型软件,如Maya,3DMAX等,在鲜花造型和动画设计方面的缺陷,论文提出鲜花构件化参数建模和动画
随着网络规模的不断扩大与应用技术的不断进步,越来越多的业务需要对数据包进行实时、快速的分类过滤。数据包过滤是一个用软件或硬件设备对向网络上传或从网络下载的数据流进
无线传感器网络是一种新型的、无基础设施的、自组织的网络系统。随着通信技术、微电子技术、传感器技术的进步,无线传感器网络发展迅猛,在理论研究和产业上都备受关注。它具有
软件开发发展到今天,由原来单一的手工作坊式的开发发展到成千上万人的集体开发,使软件开发越来越体现出集体的劳动和创造,70年代出现的“软件危机”促使人们对软件工程进行研究
随着计算机软件技术的不断发展,越来越多的企业要构建自己的信息平台。在构建企业信息平台时,面临着对原有系统的集成及方便以后系统集成的问题。原有系统往往有着不同平台、
随着计算机网络技术和产品开发全球化的迅猛发展,传统的CAD设计理念正发生着一场深刻的变革,从上世纪90年代开始逐渐兴起了一种新的产品设计方式,即通过网络的协同设计。其中基
智能计算机辅助教学(ICAI)是当今计算机辅助教学(CAI)应用发展的一个主流,考试评测反馈系统作为其中的一个重要组成部分,正受到越来越多的关注。但是目前考试评测系统的研究还
以实时控制为代表的嵌入式产品,不仅为嵌入式市场展现了美好前景,同时也对嵌入式系统技术,特别是对嵌入式实时操作系统提出了新的挑战。嵌入式实时操作系统是嵌入式应用软件的开
随着因特网的飞速进步和发展,分布式系统和Web应用系统在当今的计算机科学中起着越来越重要的作用。在Internet平台之上的动态Web开发是一个系统性任务,需要从网络、体系结构和