训练基于EP的分类器算法

来源 :郑州大学 | 被引量 : 0次 | 上传用户：cyanh77

【摘要】

：

数据挖掘又称数据库中知识发现，是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务，在商业、金融、电讯、DNA分析、科学研究等诸多领域具有

【作者】

：

温箐笛

【机构】

：

郑州大学

【出处】

：

郑州大学

【发表日期】

：

2006年期

【关键词】

：

机器学习数据挖掘分类显露模式

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘又称数据库中知识发现，是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务，在商业、金融、电讯、DNA分析、科学研究等诸多领域具有广泛的应用。统计学、机器学习、神经网络等领域的研究者提出了很多分类方法，大部分算法是内存驻留算法，适用于小型数据集。随着数据集的数据量和维数的增加，建立高效的、适用于大型数据集的分类法已成为数据挖掘的一个挑战性任务。基于显露模式(Emerging Pattern，EP)的分类方法是针对大型数据集的分类提出的，EP是G．Dong和J．Li提出的一种新的知识模式，这些模式能够捕获目标类和非目标类上多组属性之间的不同，具有很好的分类性能。第一个基于EP的分类算法是G．Dong等提出的CAEP算法，此后相继提出了JEP-Classifier、BCEP和DeEPs等一系列基于EP的分类算法。相关研究表明，基于EP的分类算法的平均分类准确率优于决策树等传统算法，显示了EP在分类方面的优越性。本文提出了一种可调整权值的基于EP的分类方法CEPAW。CEPAW使用基本显露模式(eEP)并聚合eEP的区分能力建立分类器。在聚合eEP的区分能力时，eEP的权值通过训练自适应地选取。训练分为两个阶段：第一阶段的主要任务是挖掘eEPs，构造初始分类器。在EP的选取以及评分函数方面，我们都采用了不同于以往的基于EP的分类算法的方法。第二阶段是权值的自适应调整。开始，所有EP的权值相同。反复地使用初始分类器对训练样本进行分类，并通过考察每个EP对训练样本的分类效果调整EP的权值，直到分类器的分类准确率不能再提高。为了测试算法的分类性能，使用了UCI机器学习库中的12个数据集作为实验数据集，并将实验结果与NB、C5.0、CAEP、LB以及BCEP算法进行比较。结果表明，CEPAW具有更好的分类准确率，自适应地选取EP的权值比以支持度为权值的评分策略更加合理。当数据分布发生轻微变化时，通过再训练，调整EP的权值，CEPAW可以较好地适应新的数据分布。

其他文献

基于电子商务环境的多Agent并发协商策略研究

电子商务充分利用互联网的优势,消除了企业与企业、消费者与企业之间的地域限制,这给企业创造了无限的商机,给消费者带来了更多的选择。协商是商务活动中不可缺少的一环,在很

学位

并发协商自动协商电子商务多Agent系统Q学习算法相似度方法承诺

航天器在轨运行与维修仿真关键技术研究——建模与虚拟人控制技术

在科技飞速发展当今，国家现代技术水准的一个重要体现就是航天科技的发展。然而，随着航天器机构越来越复杂，又因其所运行环境的特殊性（距离地面高、空间辐射大、常期无重力），对于一

学位

航天器在轨运行虚拟现实光线跟踪碰撞检测人体逆运动

Tchebichef矩不变量及多变量离散正交矩的构造研究

在实际应用中，我们看到的图像可能是从不同的角度、不同的大小或者不同的视角而获得的，如果一组图像来自于同一幅图像的上述变换，那么这些图像应该有某些特征是不受到这些变换的

学位

Tchebichef矩不变量多变量离散正交矩图像检索图像重建模式识别

椭圆曲线密码及其在电子商务中的应用

随着计算机和通信网络技术的进步，电子商务日益蓬勃发展。电子商务的安全性是其研究和实施的关键问题。而随着椭圆曲线密码研究的深入和技术的逐渐成熟，其优点越来越突出，因此电

学位

椭圆曲线密码电子商务SET综合加密方案

基于多模的室内POI推荐系统分析和设计

基于位置感知的移动服务(Location Based Service，LBS)依赖于用户的位置。比如线上到线下服务(Online To Offiine，O2O)需要提供位置定位，来给用户提供方便快捷的服务。目前已有

学位

移动服务兴趣点发现停留点检测轨迹聚类室内定位推荐系统

基于网络能耗平衡的无线传感器网络MAC协议的设计

无线传感器网络是一种全新的信息获取、处理和传输技术。由于无线传感器网络具有节点的电源能量和硬件资源受限的特征，设计能量高效的通信协议是无线传感器网络研究中具有挑战

学位

无线传感器网络信道资源IQUEUE-MAC协议能耗平衡簇头动态选择算法仿真实验

建筑能耗数据的可视化分析

建筑用能是能源消耗的主要组成部分，同时建筑节能也是节约能源的重要领域，建筑能耗统计数据是建筑节能工作的重要基础。天津工业大学被评为国家住房和城乡建设部节约型校园示范

学位

数据处理可视化分析校园建筑能耗监测系统平行坐标法

发布/订阅系统中可靠组数据传输协议研究

随着网络、通信技术和Internet的飞速发展，分布式系统的规模和范围已经发生巨大的改变，需要一种更灵活的通信机制来满足这些分布式系统新的应用形态。发布/订阅机制的时间、空

学位

发布/订阅系统组数据传输可靠组播协议拓扑构建算法功能测试

实时通信网络的研究与仿真实现

目前,实时系统已广泛应用在军事和民用领域。随着实时系统应用的不断深入发展,出现了分布式实时系统。分布式实时系统可划分为本地实时处理和实时通信两部分。本地实时处理涉

学位

实时通信交叉总线网络协议优先级时延

基于.NET的对象/关系映射技术的研究与应用

几乎所有企业应用软件的开发部涉及数据的存取、更新等操作。目前的解决方案大多采用关系数据库存储数据，并采用面向对象的方法为企业应用领域建模。但是对象模型和关系模型之

学位

对象/关系映射关系数据库持久层框架.NET框架

训练基于EP的分类器算法

与本文相关的学术论文