基于Lazy方法的数量型关联分类研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:melancholy111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代,高速发展的计算机技术使许多有价值的信息被保存起来,但是如何将这些隐含信息有效地挖掘出来加以利用是我们不断研究的方向。关联分类作为数据挖掘中一种分类精度高,适应性好的分类算法,被广泛的应用于各个领域。目前的研究方法和模型都是基于理想的离散型数据,如何将其更好的应用到数量型数据中是亟待解决的问题之一。目前针对数量型数据的关联分类方法主要是通过先离散化,转化为离散型数据后,再应用传统的关联分类算法进行分类。这种“先离散,再学习”的步骤可能带来离散盲目性问题,例如待测试样例不确定时,可能无法匹配到已经构造好的分类器中的规则的区间,进而影响其分类的准确性。另一方面,采用Lazy思想的基于属性投影的关联分类算法将构造分类器的时间推迟到分类阶段,同时在此之前,对每个待测试样例在原始训练数据集上进行投影,得到一个规模小,去除无关属性的新训练数据集。实验证明,相比传统的关联分类算法,Lazy关联分类算法在分类效果上有了很大的提高。本文基于传统关联分类算法在数量型数据上的应用的弊端,结合Lazy思想,提出了一种新的关联分类算法QLAC—基于数量型属性的关联分类算法。针对数量型数据,它首先利用K-近邻分类思想“投影”,选取N个近邻为待测试样例新的训练数据集,然后,使用K-means聚类算法对待测试样例和新的训练数据集进行离散化,最后根据离散化后的数据特征,采用基于频繁闭项集的关联规则挖掘算法挖掘类关联规则并构造分类器进行分类。另外,在利用K-近邻分类思想得到待测试样例的新的训练数据集时,首先判断它们的类属性值是否一致,若一致,则直接将其赋值给待测试样例,否则继续进行后面的关联分类操作。最后,为了验证QLAC算法的有效性,在UCI上7个数量型数据集上进行对比实验。实验结果证明,与K-NN算法相比,QLAC算法在分类准确率高于1.03%,与现有的关联分类算法包括CBA,CPRA,CMRA和Lazy算法相比,平均分类准确率提高0.66%-1.65%。另外,在分类器大小对比试验中,QLAC算法的分类器中规则比CBA平均减少39.3条,证明它能更有效地对待测试样例分类。
其他文献
相比传统网络,泛在网中设备数量众多,种类繁杂,且许多数据源网络长期处于无人值守的工作状态。泛在设备的存储和计算能力相比传统网络也更加有限,当前,大多数数据源网络之间
数据统计显示,意外事故发生时,当事人几分钟之内的死亡率为50%;几小时内的死亡率为30%;受伤之后,在几星期内死亡的占20%。而且,立即死亡的当事人,绝大部分丧生于事故现场。可见
人脸识别凭借其友好、便捷、隐蔽性等优势成为生物识别领域的热点研究课题之一。经过近50年的发展,基于二维图像的人脸识别技术日趋成熟,但受限于二维图像的数据形式,二维人
集电力电子和智能控制于一体的无刷直流电机(Brushless DC Motor,BLDCM),得益于其电能转化效率高、使用寿命长及维护维修方便的优势,已广泛应用于工业控制、交通运输、家用电气
三维网格模型在计算机图形学中具有主导地位。它广泛应用于电影、游戏、计算机辅助设计、模拟仿真、艺术与历史、医药等众多领域。基于多边形网格模型的数字几何处理技术不断
随着互联网的发展,数据呈现几何式的增长,如何能够从巨大的数据中快速寻找出对自己有用的数据,将会是大家面临的一个问题。搜索技术的出现方便了人们快速而且有效的获取信息
现代数字信号处理器(DSP)一般采取超长指令字或是超标量来实现指令级并行。超长指令字(VLIW)数字信号处理器将并行任务的识别和调度交给了编译器,因此在利用VLIW DSP的时候需
在通信技术迅速发展的今天,手机已经成为人们工作和生活当中不可或缺的联系工具。手机给人们带来众多便利的同时,也常常被不法分子利用作为犯罪工具,司法机关急需采取有效的技术
生物医学文献数量的急剧增加,使得生物医学从业者在海量生物医学文献中快速地获取大量的感兴趣的信息变得困难。因此,快速有效地从海量无结构化的文本中抽取出便于管理、查询
MicroRNA (miRNA)是一种非编码的RNA序列,这些长度约为21个碱基的序列在动物、植物、病毒基因的后转录过程中发挥着巨大的作用。MiRNA可以靶向到它们对应的靶基因,抑制某些基