基于改进支持向量机的数据挖掘分类算法研究

来源 :兰州理工大学 | 被引量 : 9次 | 上传用户:wzx85695021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术与计算机技术的飞速发展,数据出现爆炸式增长。而这些海量的数据中隐藏着丰富的深具价值的信息和知识,如何对这些信息和知识进行有效的提取并加以利用,成为研究的重点。近年来不断发展的数据挖掘技术就是一种能够帮助人们发掘潜在有用信息的重要手段。支持向量机(SVM)作为一种有效的数据挖掘分类算法,它以统计学习理论为基础引入结构风险最小化,通过在属性空间中构建最优分类超平面获得分类器实现对未知样本的分类,具有泛化能力强,较好的非线性数据处理等优点,但也存在一些不足。本文主要围绕SVM算法展开分析与研究,主要研究成果如下:1.针对FSVM应用于数据挖掘分类中存在对大样本集训练速度慢及对噪声点敏感影响分类正确率的问题,提出了一种基于改进FSVM的数据挖掘分类算法,该算法首先利用预选候选支持向量的方法减少训练样本数目;其次定义一种新的隶属度函数增强支持向量作用,并将近邻样本密度运用于隶属度函数设计中,降低噪声点对分类的影响。试验通过与FSVM和基于类向心度的模糊支持向量机(CCD-FSVM)算法的结果对比,验证提出算法的有效性。此外针对FSVM算法进行数据挖掘分类时分类速度慢的问题,在保证分类正确率的前提下,提出了一种改进的数据挖掘FSVM分类算法。该算法使用预选候选支持向量的方法减少训练样本数目,并训练FSVM得到支持向量集;其次将粒子群优化运用到选择最优支持向量子集中,减少支持向量数目从而提高分类速度。仿真结果表明该算法在保证分类正确率的前提下,相比SVM和FSVM训练速度和分类速度更快。2.针对球向量机(BVM)虽然相较SVM具有较快的训练速度,但是当样本数目不均衡时存在分类性能较差的问题,提出了一种基于改进BVM的不平衡数据集分类算法。该算法先利用训练集分解思想对负类样本进行分解,并分别与正类样本组成平衡训练样本集,然后用旋转森林算法对得到的平衡训练样本集进行预处理并训练基分类器,最后利用集成技术对基分类器的分类结果进行集成,提高BVM的分类性能。试验通过对UCI数据集进行测试,与BVM、ESt SVM、Ada Boost-SVM-OBMS和En SVM算法进行对比,表明该算法对于不同的不平衡数据集分类结果相对稳定分类性能较高,验证了其有效性。3.针对现实生活中存在大量高维不平衡数据,但传统数据挖掘分类算法处理该分类问题时由于受到样本分布和维数的影响导致分类性能不高的问题,提出了一种基于SVM的高维不平衡数据集分类算法。该算法利用改进的核SMOTE算法合成正类样本解决样本分布不均衡的问题,然后在特征空间中运用稀疏表示的特征选择算法对高维数据集进行降维,最后寻找合成样本在输入空间的原像,运用SVM进行分类。对UCI数据集的测试结果表明,该算法能有效提高对高维不平衡数据集的分类性能。
其他文献
随着电子结肠镜的广泛应用,结肠黑病变(Melanosis Coli,MC)的确诊病例并非罕见。此前常因对MC认识不足或/和纤维结肠镜成像质量不高而导致误诊或漏诊。本院从1997-06/2000-07
目的 探讨病程长短对积液量、胸膜厚度、抽液难度的影响,以及测量距体表深度与实际进针深度的关系。方法 76例结核性胸腔积液患者根据病程分为3组:A组(病程≤1个月)、B组(1个月
重点叙述了辽源矿业(集团)有限责任公司从原始的刮板运输机运煤到采用SZZ764/200型转载机运煤,是因为综合机械化采煤机的引进而产生的新型运煤方式,达到了高产高效。
自然保护区无线数字化监控系统利用先进的无线数字微波传输结合以往的有线模拟传输技术,灵活方便给前端采集设备提供高清图象及信号的高速稳定传输通道,来最大限度的满足后台监
城市文化软实力是城市竞争力的核心内容,也是促进城市发展的重要动力,所以发展城市文化软实力意义重大。从政府职能、文化机制、高校资源和历史文化资源这四个方面简单分析了如
背景:有研究报道胸腰椎后路融合围术期运用氨甲环酸可减少围手术期出血量,但这些研究普遍病例数较少。因而,有必要对国内外氨甲环酸减少胸腰椎后路融合术后出血量的临床研究
食品中的亚硝酸盐过量摄入人体会对人们产生健康威胁,为此要加强对食品中亚硝酸盐的检测,它属于食品安全检测的重要内容,可以采用常规性的检测方法,实现对食品中亚硝酸盐的检
肝纤维化是慢性肝炎发展为肝硬化的前驱阶段,此阶段是可逆的病理过程,如能早期发现及时治疗,是探讨肝炎、肝硬化形成的关键,由于肝穿刺难于重复开展,因此,可靠和敏感的血清学指标检
现有对科技期刊发展进行的讨论更多呈现出一种唯技术主义倾向,其假定暗含着只要科技期刊应用最新的网络技术、通讯技术,就可以实现其在新媒体时代下的有机融合和高效传播。这
目的探讨iPad访视软件在手术室择期手术患者中的应用效果。方法选取行择期手术的神经外科患者209例,按随机数字表法分为观察组(n=106)和对照组(n=103),对照组按常规实施术前