融合分类器及SVM-RFE特征选择算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:guicailea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术进步和发展,使得各行各业产生了大量数据,人类进入了大数据时代。大量数据的产生对我们来说既是机遇也是挑战。因此,急需我们从大量数据中发现有用的信息来促进生产力的发展。数据挖掘技术就是在这基础上发展而来的。数据挖掘是一门交叉学科,它融合了模式识别,机器学习,统计学习,人工智能等技术。通过分析数据中的有用信息,吸取精华,去其糟粕,挖掘出数据中潜在知识。目前,数据挖掘技术广泛应用到基因组学、蛋白组学、代谢组学等各个领域。分类和特征选择技术都是数据挖掘中常用的基本技术,在知识的发现和信息的提取中起到了重要作用。由于不同的分类器模型能够从数据中挖掘出不同的信息,利用多种分类模型建造融合分类器中的基分类器,充分利用各个分类器之间的互补性,增强了融合分类器中基分类器的强度和基分类器之间的多样性。因此,本文中提出了一个基于多种分类模型的融合分类器。该融合分类器由多个融合基分类器构成,每个融合基分类器利用三种不同的分类器(决策树、kNN,SVM)通过加权融合而成。在公共数据集上的实验结果表明,与其它融合分类技术和单分类器相比,本文中提出的方法在一定程度上提高了分类的准确率。高维小样本数据往往导致数据挖掘过程中建造模型的时间增加,性能反而降低。特征选择技术目的就是从高维数据中选择出有用的特征,提高模型的性能。SVM-RFE是一种常用的特征选择技术,它通过迭代删除SVM模型建造过程中权重最低的特征,有效删除噪音特征和冗余特征。样本分布情况能够影响SVM模型中超平面的建立,从而影响特征选择结果。在此基础之上,本文中利用类重叠技术,计算每个样本的重叠程度,在SVM-RFE中利用重叠程度低于我们预先设定阀值的样本去建造SVM模型,更好的计算特征权重。实验过程中,文中给出分类准确率比较结果和特征分析结果。实验结果表明本文提出的方法一定程度上改进了SVM-RFE特征选择性能。本文首先提出了基于多种分类器方法的融合分类器,利用不同分类器之间的互补性提高了分类准确率。其次,利用类重叠技术研究样本的分布情况,提出了一种改进的SVM-RFE特征选择方法,改善了特征选择的性能。
其他文献
随着软件行业的发展,软件开发技术的提高,软件产品的规模变得日益庞大,软件的复杂度不断增加,软件测试日益得到重视和变得专业化。软件测试作为保证软件质量的重要环节,测试
无线传感器网络是一门综合了计算机技术、现代通信技术、微电子技术、嵌入式系统、分布式信息处理等理论的新兴科学。它是由大量具有感知能力、计算能力和通信能力的微型传感
随着近些年来测序技术的飞速发展,人类产生了海量的生物序列数据,亟需通过有效的计算手段进行分析和处理。而在众多的生物序列分析与处理问题中,生物序列数据的k-mer频次信息是
科学技术不断发展进步,人类每天都要处理大量繁冗复杂的信息。数据挖掘技术就是从这些大量纷繁的数据中挖掘潜在有用的信息,使数据的分析和解释更简洁容易。特征选择是数据挖
基于车联网应用的云计算支撑平台利用虚拟化技术将不同类型的物理服务器和虚拟机等异构资源整合成一个虚拟资源池,按需为不同的用户提供不同类型的车联网应用服务。车联网大
信息时代的发展,引领计算机软件应用深入到千家万户,各行各业。随着软件的应用领域迅速加大,规模急速扩张,软件安全性的要求也逐步提升,软件调试和维护的成本越来越高,软件的
在当前开放的互联网形式下,多媒体技术快速的发展,已经成为数字信息时代的主要参与者。人们通过数字形式的多媒体信息来进行数据通信和信息交换,意味着信息交换允许第三方访
本文主要基于复杂网络理论来研究推荐系统中的用户评分预测问题。重点研究了用户评分行为的异质性,提出了多个有效的个性化推荐算法。这些工作推动了推荐系统从个性化推荐算
近年来,伴随着计算机技术的迅猛发展,数字三维几何的表示方法已经在诸多行业得到了广泛的应用。在工业应用中,三角形网格与四面体网格是三维几何模型表示中比较通用的存储格式。
Android操作系统是一个由Google和开放手机联盟共同研发的针对移动设备的操作系统。复杂的架构、公开的源代码、开放的平台及它提供的强大的开发环境和工具等特点,为开发人员