基于Ripper的增强分类方法及其应用研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:newlifeinsydney
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据与人工智能时代的到来,数据与智能在我们的生活与工作中扮演着举足轻重角色。数据挖掘作为大数据与人工智能应用最为广泛的一条技术分支,其中的数据挖掘算法的性能将直接影响数据挖掘结果。而众多数据挖掘算法中,分类算法能够在金融、医疗、营销和交通等各行各业中解决出现最多的分类问题。作为数据挖掘中最为核心内容,去提升和改进其分类算法的性能,有着重要的研究意义。对于数据挖掘技术来讲,一方面大量数据中存在很多冗余、脏乱差的数据,对于这些属性的处理,现有的一些特征选取方法,并不能很好地贴合分类器的特性来进行属性筛选。另一方面,对于传统分类器,也存在着分类准确率有待提升、训练数据不平衡、过拟合等问题。在算法运行效率方面,本文以Ripper算法为基础,提出了一种贴合分类器特性的特征选取算法。统计Ripper分类器得到的输出规则结果,对于每个特征属性出现的次数进行权重累加,并设置相应的过滤阈值。当某特征属性权重低于阈值时,过滤删除此属性,循环迭代此算法已达到筛选属性的目的。在提高算法分类准确率方面,本文提出了一种基于Ripper算法的增强分类算法。结合Adaboost算法框架,使用Ripper作为弱分类器。将训练集的样本按照迭代次数平均划分,对于第一份数据进行直接训练得到其相关的弱分类器。之后每次使用其中一份数据加上上一个弱分类器分错样本的扩充数据,进行训练。扩充数据,即对错误样本重复抽样,达到与新样本之间的数据比例各占50%。直到到达某个之前设置的分类错误率,或到达先前指定的最大迭代次数,则训练停止。最后,将训练后的多个弱分类器权重求和相加,构成最后的增强分类器Ripper-ADB。采用本文提出的特征选取算法,很大程度上减少了算法运行的时间。在32个属性时测试集可以达到最高的分类准确率86.29%,在仅有6个属性的时候,在仍然可以达到84.78%的分类准确率。结合特征选择方法,提出的Ripper-ADB算法,在不同属性的情况下,与原始算法Ripper以及传统决策树、SVM相比,在测试集上,32个属性的时候拥有最高88.5814%的分类准确率。
其他文献
碳纤维复合材料是一种轻质且性能优异的材料,广泛应用于各工程领域。在使用过程中,碳纤维复合材料结构件易受到面外的低速冲击,造成其内部的损伤,进而导致承载能力的降低和潜
目前,软件开发领域的发展非常迅速,软件的规模也日益增大,各类应用软件的质量、性能要求也越来越严格。为了保证大规模软件的质量,人们提出了许多自动化的错误定位的方法,来
随着网络技术的发展,网络在人们的生活和社会的发展中起着越来越重要的作用,网络规模也随之越来越大。网络数据的可视化是理解和掌握网络结构形成与演化的重要手段,也是分析
目的:研究PINK1-Par-kin介导的线粒体自噬在阿霉素(Doxorubicin,DOX)致人心室肌细胞(AC16)线粒体损伤中的作用。方法:分别用不同浓度DOX处理AC16细胞24h。检测DOX对细胞存活
随着计算机视觉和多媒体技术的迅猛发展,数字图像的尺寸不断增大,传统的以像素为基元的图像分割算法越来越难以满足实时性的需求,而超像素分割算法的提出在一定程度上解决了
目前,仿真应用越来越向分布式、网络化发展。随着仿真应用规模的增长,系统中的节点数量、节点交互数据的规模和频率也迅速增加。网络作为仿真系统各个资源的连接器,其数据传
近年来,随着人工智能、虚拟现实等智能科技的迅速发展,基于视觉的手势识别因其简单、自然、直观和非侵犯性等特性已成为人机交互的重要组成部分和研究热点。手势分割作为手势
随着大数据时代的来临,互联网网络规模的日益扩大和承载业务种类的逐渐繁多,网络流量呈现惊人的快速增长。如何有效地对网络应用流量类型进行快速且准确的识别分类,成为一个
光纤陀螺惯性导航系统以高精度、低功耗、高可靠性的优势越来越多地被应用于空间卫星的姿态控制中,光纤陀螺应用在空间中其误差会受到辐射效应的影响,进而使光纤陀螺的性能发
近些年来,数字信息呈喷薄式地增长发展,逐渐被广泛地应用到科技发展的各个领域当中。数字彩色图像由于具有特殊的颜色、纹理和形状等特点,从而成为了多媒体数字信息中应用最