论文部分内容阅读
分类是数据挖掘领域研究的重点内容之一。分类挖掘的主要目标是在已知类别的样本集中训练出一个具有较强泛化能力的模型,以便对新数据能有一个准确的预测。目前,虽然研究者们为了提高预测准确度已经做了大量研究,并取得了一系列成果,但仍存在很多问题值得深入研究与探讨。本文主要对分类数据的特征选择、分类算法的比较分析以及分类算法的集成等方面的相关问题进行了探索研究,并对研究结果进行了实验验证。论文首先探讨了分类数据的特征选择问题。针对mRMR特征选择算法对所有数据集的特征评价标准固定,而忽略了不同数据集的冗余性与相关性不同的问题,提出了一种改进的mRMR算法。该算法通过加入权重因子,调节不同数据集评价标准中最大相关性D与最小冗余性R的比例,从而更好拟合不同数据集的特性,并运用UCI数据集进行了实验分析,实验结果验证了该方法的有效性。然后,针对分类算法种类多,人们面对实际问题不知道如何确定算法的问题,对其中的9种典型分类算法,从数据集类别数这一分类性能影响因素入手,运用实验方法分析了其在解决二分类问题与多分类问题时的性能差异。在对比实验中,论文针对这两方面的问题,从UCI数据集中各选出17个数据集,在对数据集进行数据预处理以及算法参数优选的基础上,分别测试了9种算法在两类数据集上的综合表现,从分类精度、分类效率、可伸缩性以及鲁棒性四个方面对实验结果进行了分析评价。最后,为了解决单一分类算法在提高预测准确度方面存在局限性的问题,论文运用集成学习技术改善其泛化能力,构建了一种基于改进粒子群算法的集成分类算法。该方法针对惯性因子线性递减粒子群算法无法平衡全局搜索能力和局部搜索能力,以及粒子搜索过程与实际非线性变化特点不符的缺陷,提出了一种惯性因子非线性S型变化的改进粒子群算法,该算法能够通过前期突出全局搜索能力与后期突出局部搜索能力来平衡搜索能力加快收敛速度。在此基础上,通过仿真实验,验证了所提方法的可行性与有效性。