基于实验的分类挖掘若干问题研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:shylockbc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘领域研究的重点内容之一。分类挖掘的主要目标是在已知类别的样本集中训练出一个具有较强泛化能力的模型,以便对新数据能有一个准确的预测。目前,虽然研究者们为了提高预测准确度已经做了大量研究,并取得了一系列成果,但仍存在很多问题值得深入研究与探讨。本文主要对分类数据的特征选择、分类算法的比较分析以及分类算法的集成等方面的相关问题进行了探索研究,并对研究结果进行了实验验证。论文首先探讨了分类数据的特征选择问题。针对mRMR特征选择算法对所有数据集的特征评价标准固定,而忽略了不同数据集的冗余性与相关性不同的问题,提出了一种改进的mRMR算法。该算法通过加入权重因子,调节不同数据集评价标准中最大相关性D与最小冗余性R的比例,从而更好拟合不同数据集的特性,并运用UCI数据集进行了实验分析,实验结果验证了该方法的有效性。然后,针对分类算法种类多,人们面对实际问题不知道如何确定算法的问题,对其中的9种典型分类算法,从数据集类别数这一分类性能影响因素入手,运用实验方法分析了其在解决二分类问题与多分类问题时的性能差异。在对比实验中,论文针对这两方面的问题,从UCI数据集中各选出17个数据集,在对数据集进行数据预处理以及算法参数优选的基础上,分别测试了9种算法在两类数据集上的综合表现,从分类精度、分类效率、可伸缩性以及鲁棒性四个方面对实验结果进行了分析评价。最后,为了解决单一分类算法在提高预测准确度方面存在局限性的问题,论文运用集成学习技术改善其泛化能力,构建了一种基于改进粒子群算法的集成分类算法。该方法针对惯性因子线性递减粒子群算法无法平衡全局搜索能力和局部搜索能力,以及粒子搜索过程与实际非线性变化特点不符的缺陷,提出了一种惯性因子非线性S型变化的改进粒子群算法,该算法能够通过前期突出全局搜索能力与后期突出局部搜索能力来平衡搜索能力加快收敛速度。在此基础上,通过仿真实验,验证了所提方法的可行性与有效性。
其他文献
磷脂酶A1辅助蛋白PlaS是一段在编码基因plaA的下游序列,它与磷脂酶A1在大肠杆菌中的高活性表达密切相关。为研究辅助蛋白PlaS的性质及其对磷脂酶A1的酶活调控机制,构建SP28重
图像显著性区域检测是模仿人类视觉注意机制,将视觉场景中的显著对象提取出来,从而使计算机具备类似人的视觉主动性和选择性的一种图像处理技术,在图像分割、图像检索、图像/
红外辐射是当今社会运用广泛的一段电磁辐射波段,在军事、工业、医学等方面都有重要应用。而红外探测系统由于其被动式探测的工作方式,有着保密性强、隐蔽不易被发现、不易被
文言文是古代中华民族历史、思想、文化的载体,是我们民族文化之根,它承载着厚重的文化内涵和智慧结晶。2019年秋,全面改版的统编版小学语文教材的编排,对文言文的教育越来越
在生化分析中,待测样品通常体积有限且待测组分含量较低,因而常需要进行样品前处理操作。现有方法常基于SPE、zip-tip等对其进行富集处理,这些方法虽在样品消耗量方面存在一
以石墨烯为代表的二维(2D)材料具有独特的物理化学特性和其背后复杂的机理,自它们在2004年问世以来就一直是研究的热点。过渡金属硫族化合物(TMDCs)作为一种新兴的2D材料具有
图像语义分割是计算机视觉的重要组成部分,能够同时识别目标的位置和类别,这在遥感图像处理中具有重要的现实意义。在传统的语义分割算法和深度卷积神经网络的基础上,本文提
热工对象多是大惯性、非线性、耦合性非常强的复杂多变量系统,多年来,对热工对象的建模和控制一直是研究的热点。基于现场数据的建模以及先进控制更是具有非常重要的理论意义
计算机智能时代的到来,人脸检测与识别技术作为计算机视觉领域的热门方向越发备受关注。人脸检测与识别技术有着广泛的应用前景,巨大的潜在商业价值。然而,这一技术的发展又
随着城市工业化发展和技术的进步,环境污染问题也日益严重,引起了世界范围的关注。特别是近几十年来,我国经济迅速发展,对各种能源的消耗越来越大,因此,我们也付出了环境恶化