基于正相关关联规则的分类算法

来源 :郑州大学 | 被引量 : 0次 | 上传用户:maqianjin123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘研究中的一个基本任务,关联规则挖掘是数据挖掘研究中的一个重要领域,把关联规则挖掘用于分类问题开辟了数据分类的一条新路。常见的基于关联规则分类算法通常在训练数据集上生成关联规则的全部集合,然后选择一个高质量的规则子集作为分类规则集去分类和预测测试数据集。研究表明,基于关联规则分类具有高准确率和强适应性的特点。但是,在生成的分类器中,往往会产生大量的分类规则,而其中很大一部分的分类规则可能对分类并没有好处。并且,有时因为选取单一高置信度的规则,使分类结果产生了过分拟合。因此,基于关联规则的分类算法,其关键在于分类器也就是分类规则集的建立。而且对挖掘得到的分类规则集需要有不同的度量去评估其分类性能。如何产生更有意义的关联规则,如何使用有意义的关联规则对测试数据集进行分类,是本文研究的主要内容。本文提出了一种新的关联分类算法CPCAR。该方法对FP-Growth算法进行改进,在频繁项集产生的过程中,引入正相关性的判断,使最后生成的频繁项集是正相关的,并使用正相关的频繁项集得到正相关的初始分类规则集。为了提高分类准确率和效率,再利用置信度对初始分类规则集进行规则选取,生成由正相关关联规则组成的分类器。分类时,本文算法首先在每个分类器中选取分类规则,这些分类规则可以分类测试事务,每条分类规则都有一个x~2权值,然后计算每个分类器中选取出的分类规则的权值和,比较权值和最大的分类器的类标号与测试事务的类标号,两个类标号一致则表示分类正确。最后根据正确分类的测试事务数与总测试事务数得出本文算法在某事务数据集上的分类准确率。实验表明,虽然本文算法在生成分类规则集的时候,删除了大量的关联规则,但是在UCI机器学习的14个数据集中,最终的分类准确率可以与C4.5和CMAR相媲美,且算法运行的时间开销明显降低。
其他文献
随着网络技术的发展,用户对于基于网络的实时、多媒体应用的兴趣和需求不断提高,如何发展、规划、改造现有的网络,以适应这样的变化,并满足用户多样的需求也成为研究领域和业界需
作为课题组结构光三维扫描原型系统的后续研究,本文致力于提升该系统在扫描精度、计算速度和存储空间占用等方面的性能,以更好地满足高精度、高效率、适合大规模文物数字化应用
在计算机图形学中,最引人注目的研究方向就是图形的真实感问题。所谓图形的真实感问题就是指所生成的图形反映客观世界的程度。纹理映射是高质量图像合成中最成功的技术之一,
近年来,基于XML的Web服务技术迅速发展,为互联网应用提供了一种共享数据的有效手段。它能够较好地解决异构应用之间、松散耦合环境下的互操作、集成和协作问题,成为国内外软件技
21世纪是城市的世纪,城市在经济社会发展中的地位和作用将更加突出。如何提高城市竞争力,加快城市的现代化发展,已成为广大学者普遍关注的问题。定量分析不同城市之间的竞争
“三网合一”——即将电视网、电话网和传统计算机网络合并为一个集成的网络已是大势所趋,密集波分复用(DWDM)技术的出现又为其提供了高速通信条件,但是现有的Internet的三层/两
支持向量机(SVM)是在统计学习理论的基础上发展起来的,它在很大程度上解决了以往的机器学习模型的选择与过学习、非线性、维数灾难、局部极小点等问题,在20世纪90年代以来受到
本论文从网格技术的基本理论出发,阐述和介绍作为下一代网络的最新技术——网格的起源、概念、发展现状、分类、系统构成、网格体系结构等基本要素进行了详细的介绍,着重研究了
随着我国国民经济高速发展,能源在经济中的地位日渐突出。山西省作为能源重化工基地,有着丰富的煤炭资源,然而它却是一个缺水大省,水资源的匮乏已经成为阻碍本省经济发展的绊脚石
虚拟现实技术是计算机图形学、人工智能、计算机网络、信息处理等技术发展的产物。大投影面沉浸环境在虚拟现实技术中越来越多的应用,关键的原因在于它良好的沉浸感给人在视觉