论文部分内容阅读
在本论文中主要考虑最小二乘支持向量回归机算法。该算法虽然继承了支持向量机算法的小样本、高维性和泛化能力强的优点,但由于其采用平方损失函数,从而导致算法缺乏稀疏性和鲁棒性。另一方面,机器学习算法的参数选择直接影响着模型的预测能力。在本论文中,从稀疏性、鲁棒性和参数选择三方面对最小二乘支持向量回归机算法进行改进,并提出新的算法。 本论文的主要研究工作包括以下几个方面: (1)目前大多数最小二乘支持向量回归机的稀疏化算法采用在原空间上筛选支持向量或只考虑特征向量的方式实现。本文提出的基于密度的迭代最小二乘支持向量回归机首先将样本映射到高维空间,使在原空间中隐藏的信息显示出来;然后通过计算类与超平面的距离找出回归间隔边界上的样本;再对初始不在回归超平面边缘范围内的类计算密度,根据密度分布重新进行迭代和聚类,直到训练集包含主要的回归信息。该方法不仅可以通过压缩训练集实现最小二乘支持向量回归机的稀疏化,而且可以有效地避免传统稀疏化算法预测精度低的缺陷。这是本论文的第一个创新之处。 (2)Suykens提出的加权最小二乘支持向量回归机算法抗噪能力较差且权值不能随拟合误差分布和异常数据变化。本文在此基础上引入抗噪性比较好的IGGⅢ权函数加权因子对拟合误差加权,同时利用基于密度的迭代最小二乘支持向量回归机算法对权值进行迭代调整,使模型更加稳健。这是本论文的第二个创新之处。 (3)针对粒子群算法寻找最小二乘支持向量回归机模型最优参数容易陷入局部最优的缺陷,本文采用随适应值变化而变化的惯性权重因子,使一些粒子在局部最优解附近以较小的步长进行搜索,同时其他的粒子继续以较大步长进行搜索,从而使其跳出局部最优值,克服局部最优的缺陷。这是本论文第三个创新之处。 (4)将上述改进的最小二乘支持向量回归机算法用于5个UCI标准数据集以及基准测试函数上进行数值实验。实验结果显示:本文提出的方法在预测准确率和训练时长上都有明显的提高。此外本文将提出的新方法应用到空气质量预测问题中进行实证研究,结果显示该算法在预测准确率和算法运行时间方面优于支持向量机、人工神经网络和决策树。