论文部分内容阅读
孪生支持向量回归机(Twin Support Vector Regression,TSVR)是机器学习领域中一种有效的数据预测方法。TSVR在训练数据的过程中,需要求解二次规划问题,因此在训练大规模数据时效率较低。最小二乘孪生支持向量回归机(Least Squares Twin Support Vector Regression,LSTSVR)将训练过程转换为求解两个线性方程组,极大地降低了计算复杂度。但是LSTSVR也存在诸多问题。首先,LSTSVR未能充分利用样本数据自身的结构信息,预测性能有待进一步提高;其次,LSTSVR利用了最小二乘方法,对异常值非常敏感;此外,LSTSVR的参数选择是借助经验法或网格寻优法,寻优效率不高。本课题研究将样本数据间的结构信息融入LSTSVR的目标函数中,抑制样本数据中可能存在的异常值对算法性能的影响,并进行参数优化,主要研究内容如下:针对LSTSVR未考虑输入样本间的结构信息问题,提出了一种最小二乘孪生投影支持向量回归机(Least Squares Twin Projection Support Vector Regression,LSTPSVR)。首先通过寻找一条合适的投影轴确定上下界函数,其次根据最小化样本集的投影方差确定投影轴,然后通过输入样本的经验方差及其经验相关系数计算得到样本集方差,这意味着引入了样本数据间的结构信息。实验结果表明,LSTPSVR能够有效地提高预测性能。为了解决样本中可能存在的异常值对LSTSVR的预测性能造成严重影响的问题,并考虑到间隔分布对训练模型泛化性能的重要性,利用孤立森林算法提出了一种最小二乘孪生间隔分布支持向量回归机(Isolation Forest-based Least Squares Twin Margin Distribution Support Vector Regression,IFLSTMDSVR)。首先根据孤立森林的异常分数机制确定每个样本数据的异常分数,然后将异常分数较高的样本点赋予较小的影响因子,用以削弱异常值对算法的影响。其次,为了提升算法的泛化性能,通过嵌入间隔分布信息的方法,将间隔均值和间隔方差整合到目标函数中。实验结果表明,IFLSTMDSVR能够有效地抑制异常值对预测性能的影响并提升泛化性能。参数选择与算法性能的优劣密切相关。灰狼优化算法具有收敛速度较快,结构简单等优点。针对IFLSTMDSVR中多个参数选择问题,利用灰狼优化算法优化IFLSTMDSVR的参数。灰狼优化算法将均方根误差或平均绝对误差作为适应度函数,通过位置更新机制,能够在有限次数内迭代得到参数的最优值。最后,将灰狼优化算法优化后的IFLSTMDSVR应用于青霉素发酵过程软测量。实验结果表明,所提出的方法能够在较短的时间内找到合适的参数,寻优效率较高,预测性能有所提升。