基于模糊分割和集成学习的分类和回归算法研究

论文部分内容阅读

支持向量机(SVM)算法因其良好的小样本学习能力,方便简洁的非线性处理能力,以及收敛过程无局部极小等优点赢得了学术界的广泛关注。它以最小化结构风险为目标,以求解二次规划问题为途径,有效获取训练样本集中的统计信息。然而由于SVM求解过程中所有训练样本被平等对待,而其最优解仅由少数样本决定,导致其对噪声点和异常点非常敏感。本论文以解决噪声点和异常点对SVM的影响为目标,对分类和回归两种学习问题进行了研究。对于带噪声点和异常点的二分类问题,本论文提出基于模糊分割和集成学习的分类算法。其主要思路是：首先,基于模糊聚类的有效性指标用模糊c均值聚类算法分别对训练集中的正负类样本聚类,自适应得到训练集的最优分割和样本的模糊隶属度；然后,根据聚类结果构造多个子分类问题,用支持向量机求解得多个子分类器；最后,对多个子分类器用集成学习策略对待识别样本进行预测。此算法中模糊聚类根据训练集样本分布特征自适应得到训练集的最优分割和训练样本的模糊隶属度,无需人为干预；集成学习策略利用对待识别样本有用的信息而降低无用信息的影响,有助于提高预测精度。文中给出了两种分类器构造和集成学习策略,数值试验验证了所提算法的有效性。对于带噪声点和异常点的回归问题,本论文提出基于模糊分割和集成学习的回归算法,其思路与针对分类问题提出的算法类似。首先,对训练集进行聚类；然后,根据聚类结果求解得多个子回归机；最后,用集成学习策略对未知样本进行预测。文中给出两种集成学习策略,数值试验证明此算法在不丢弃训练样本信息的情况下可以降低噪声点和异常点对支持向量机的影响。鉴于基于模糊分割和集成学习的回归算法对降低噪声点和异常点影响的有效性,针对Suykens等人的加权最小二乘支持向量机(WLS-SVM)依赖于预训练结果的问题,基于模糊分割和集成学习,本文提出两种WLS-SVM的改进算法,数值试验验证了改进算法的有效性。

与本文相关的学术论文