训练基于EP的分类器算法

来源 :郑州大学 | 被引量 : 0次 | 上传用户:cyanh77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘又称数据库中知识发现,是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务,在商业、金融、电讯、DNA分析、科学研究等诸多领域具有广泛的应用。统计学、机器学习、神经网络等领域的研究者提出了很多分类方法,大部分算法是内存驻留算法,适用于小型数据集。随着数据集的数据量和维数的增加,建立高效的、适用于大型数据集的分类法已成为数据挖掘的一个挑战性任务。 基于显露模式(Emerging Pattern,EP)的分类方法是针对大型数据集的分类提出的,EP是G.Dong和J.Li提出的一种新的知识模式,这些模式能够捕获目标类和非目标类上多组属性之间的不同,具有很好的分类性能。第一个基于EP的分类算法是G.Dong等提出的CAEP算法,此后相继提出了JEP-Classifier、BCEP和DeEPs等一系列基于EP的分类算法。相关研究表明,基于EP的分类算法的平均分类准确率优于决策树等传统算法,显示了EP在分类方面的优越性。 本文提出了一种可调整权值的基于EP的分类方法CEPAW。CEPAW使用基本显露模式(eEP)并聚合eEP的区分能力建立分类器。在聚合eEP的区分能力时,eEP的权值通过训练自适应地选取。训练分为两个阶段:第一阶段的主要任务是挖掘eEPs,构造初始分类器。在EP的选取以及评分函数方面,我们都采用了不同于以往的基于EP的分类算法的方法。第二阶段是权值的自适应调整。开始,所有EP的权值相同。反复地使用初始分类器对训练样本进行分类,并通过考察每个EP对训练样本的分类效果调整EP的权值,直到分类器的分类准确率不能再提高。 为了测试算法的分类性能,使用了UCI机器学习库中的12个数据集作为实验数据集,并将实验结果与NB、C5.0、CAEP、LB以及BCEP算法进行比较。结果表明,CEPAW具有更好的分类准确率,自适应地选取EP的权值比以支持度为权值的评分策略更加合理。当数据分布发生轻微变化时,通过再训练,调整EP的权值,CEPAW可以较好地适应新的数据分布。
其他文献
电子商务充分利用互联网的优势,消除了企业与企业、消费者与企业之间的地域限制,这给企业创造了无限的商机,给消费者带来了更多的选择。协商是商务活动中不可缺少的一环,在很
在科技飞速发展当今,国家现代技术水准的一个重要体现就是航天科技的发展。然而,随着航天器机构越来越复杂,又因其所运行环境的特殊性(距离地面高、空间辐射大、常期无重力),对于一
在实际应用中,我们看到的图像可能是从不同的角度、不同的大小或者不同的视角而获得的,如果一组图像来自于同一幅图像的上述变换,那么这些图像应该有某些特征是不受到这些变换的
随着计算机和通信网络技术的进步,电子商务日益蓬勃发展。电子商务的安全性是其研究和实施的关键问题。而随着椭圆曲线密码研究的深入和技术的逐渐成熟,其优点越来越突出,因此电
基于位置感知的移动服务(Location Based Service,LBS)依赖于用户的位置。比如线上到线下服务(Online To Offiine,O2O)需要提供位置定位,来给用户提供方便快捷的服务。目前已有
无线传感器网络是一种全新的信息获取、处理和传输技术。由于无线传感器网络具有节点的电源能量和硬件资源受限的特征,设计能量高效的通信协议是无线传感器网络研究中具有挑战
建筑用能是能源消耗的主要组成部分,同时建筑节能也是节约能源的重要领域,建筑能耗统计数据是建筑节能工作的重要基础。天津工业大学被评为国家住房和城乡建设部节约型校园示范
随着网络、通信技术和Internet的飞速发展,分布式系统的规模和范围已经发生巨大的改变,需要一种更灵活的通信机制来满足这些分布式系统新的应用形态。发布/订阅机制的时间、空
目前,实时系统已广泛应用在军事和民用领域。随着实时系统应用的不断深入发展,出现了分布式实时系统。分布式实时系统可划分为本地实时处理和实时通信两部分。本地实时处理涉
几乎所有企业应用软件的开发部涉及数据的存取、更新等操作。目前的解决方案大多采用关系数据库存储数据,并采用面向对象的方法为企业应用领域建模。但是对象模型和关系模型之