论文部分内容阅读
孪生支持向量回归机(Twin Support Vector Regression,TSVR)是一种有效的机器学习方法。由于TSVR只需求解一对规模较小的二次规划问题,每个二次规划问题的约束条件仅为支持向量回归机(Support Vector Regression,SVR)的一半,因此TSVR的运行效率是SVR的四倍,已逐渐成为机器学习领域的研究热点。实际中,由于数据的来源比较复杂,而TSVR追求的是拟合误差的最小化,缺乏对样本的整体结构信息、异常点以及位置信息的关注,容易导致算法在实际应用中泛化性能变差。本课题主要从提升算法的泛化性能、降低算法对异常点的敏感度以及参数优化三个方面对TSVR开展研究,取得的研究成果如下:(1)针对TSVR对样本整体结构与位置信息的盲目性问题,提出了一种结构加权孪生支持向量回归机(Structural Weighted Twin Support Vector Regression,SWTSVR)算法。该算法首先在TSVR原始形式的基础上,添加通过Wards链式聚类算法获取样本的结构信息,并融入使用K近邻算法获取每个样本的位置信息,使得样本整体结构与位置信息能够反映在TSVR算法的原始形式中,借此提高算法整体的泛化性能;其次,为了加快算法的训练过程,采用连续超松弛(Successive Over-Relaxation,SOR)算法求解原始形式中的二次规划问题。实验结果表明,SWTSVR算法具有更好的拟合效果。(2)针对TSVR对异常点十分敏感的问题,提出了一种基于快速聚类的加权孪生支持向量回归机(Fast Clustering-based Weighted Twin Support Vector Regression,FCWTSVR)算法。该算法首先使用快速聚类算法根据样本的相似性将样本快速分为边缘点、异常点以及中心点,并通过设置合理的规则将异常点剔除;其次,将样本整体的结构信息和位置信息分别以协方差和加权对角矩阵的形式融入到TSVR的原始形式中;然后,为了加快算法的训练过程,同样采用SOR算法求解FCWTSVR算法中的二次规划问题。实验结果表明,FCWTSVR算法具有更好的预测性能和抗干扰能力。(3)算法拟合性能的好坏与参数设置密切相关。果蝇算法是一种有效的群智能算法,收敛速度快,并且具有很强的全局搜索能力。针对TSVR中参数过多而导致寻优时间较长的问题,采用果蝇算法优化TSVR的参数。借助果蝇的具体位置来表示TSVR算法中所需要优化的参数,通过使用拟合精度作为果蝇算法中的适应度函数,并让果蝇随机飞行以避免陷入局部最优,经过有限次数迭代得到的最高的拟合精度与果蝇的最终位置相对应。实验结果表明,果蝇算法能够找到合适的参数,与其他参数优化方法相比,寻优时间更短。