论文部分内容阅读
训练数据和测试数据满足独立同分布,拥有足够的数据是传统机器学习必须要满足的两个条件,但是实际上获取大量有标签的数据代价高昂,不满足独立同分布的情况时有发生。面对这些问题,迁移学习显得格外重要,它能够将相关领域的知识迁移到目标领域的学习任务中。TrAdaBoost是目前应用非常广泛的一种基于实例的迁移学习算法,有着非常强的知识迁移能力。然而该算法存在收敛速度慢、易发生负迁移、初始权重分配不合理、易过拟合等缺点。本文针对这些缺点进行了改进,提出了加权多源的回归算法,并将该算法应用到电力通信网的行业问题中。本文的主要工作如下:1.改进后的TrAdaBoost算法。本文对TrAdaBoost的缺点进行了详细的分析,针对这些缺点本文做出了一定的改进。首先提出了两种权重初始化的方法,基于Very Fast KMM的权重初始化和基于二分类的概率输出的权重初始化,两者都能取得较好的效果,前者使用更加简单,后者适用范围更广、效率更高;提出了基于权重分位数的样本排除策略,排除一些极不相关的样本,加速算法的训练速度;另外提出了基于最低阀值的样本排除策略。改进后的算法为VFKMM-TrAdaBoost,其在UCI公共数据集20 Newsgroups上的多组实验中,相比TrAdaBoost算法平均有约2.5%的准确率提升,减少了至少一倍的训练时间,并极大地降低了发生负迁移的风险。2.加权多源的VFKMM-TrAdaBoost回归算法。现有的多源迁移学习算法对回归问题的研究极少,大多是解决对称的二分类问题。本文提出了误差容忍系数,一定程度解决了源领域样本权重缩减过快的问题,提高了算法的效果。基于AdaBoostRegressor的误差函数和VFKMM-TrAdaBoost算法,本文提出了加权多源的VFKMM-TrAdaBoost回归算法。在修改后的Friedman#1回归问题上进行了实验,验证了该算法的有效性,误差容忍系数可以提高大约0.01的R2分数。3.将上述回归算法应用到电力通信网行业的实际问题中。本文提出了异常站点(业务数量缺失严重的站点)检测与真值预测模型,在特征工程中将社交网络分析中的方法引入进来,提取了中心度和基于PageRank值的特征,充分考虑了站点在拓扑图中的重要度。使用加权多源的VFKMM-TrAdaBoost回归算法预测站点真实的业务数量,将其他省份的数据迁移到站点数量过少的省份的预测任务中,异常站点来自于iForest发现的异常站点和预测值与观测值的残差较大的站点两个方面。实现了相应的系统收集线下的验证数据,从而可以对模型继续完善,实验效果和线下验证结果证明了模型的有效性。