论文部分内容阅读
在电信运营商领域,离网预测是企业决策者用来发现潜在离网用户(即停用运营商服务)的主要手段。目前,离网预测都是基于特征工程和传统机器学习算法,例如逻辑回归、决策树、神经网络及随机森林等。其中,随机森林算法凭借其能同时处理离散和连续的特征输入、分布式训练速度快及有较高预测准确度等良好特性,在电信离网预测系统中得到广泛应用。因此,改善随机森林算法,进一步提升离网预测的准确度,是本文的主要研究内容。 近年来,大数据驱动的深度学习框架在预测问题上获得巨大成功,主要原因是多层次深度神经网络能够从大量数据中组合出丰富的非线性特征,从而提升分类预测决策的准确度。受到深度学习的启发,本文聚焦回答一个问题:是否能够构造一个多层次随机森林算法来获取更好的特征进而得到比单层随机森林更高的离网预测准确度?本文提出了两种多层随机森林算法,一种是多层分类森林算法,另一种是多层回归森林算法,并在运营商真实用户数据上验证这两种算法的离网预测精度。实验数据选用连续两个月的预付费用户数据(每个月大概210万条数据),其中将前一个月数据用作训练集,而将后一个月数据用作测试集。实验结果表明,多层随机森林比单层随机森林具有更高的离网预测准确度,其中四层随机森林与单层随机森林相比,在PR-AUC值上有6.82%的提升。综上所述,本文的创新点包括: 1)本文提出了一种新的多层随机森林算法——多层分类森林,通过级联的方式,将随机森林分类器构造成多层结构算法模型,并用前一层的输出作为下一层的输入。在离网预测结果上,四层分类森林与单层随机森林对比,PR-AUC值提升了4.13%。 2)类似多层分类森林算法,本文基于Gradient Boosted Regression Tree(GBRT)思想,提出多层回归森林算法。通过级联方式,将后面每一层的回归森林目标函数设置成标签值与之前所有层结果之和的残差,通过每一层不断缩小残差回归的误差来提升算法的预测能力。在离网预测的实验结果中,四层回归森林的预测准确度要高于四层分类森林,相对于四层分类森林,PR-AUC值提升了2.57%。 3)通过大量离网预测实验对比,发现以下现象:a)对比在不同数据量(分别是1个月、2个月、3个月及4个月)的训练集下多层分类森林及多层回归森林在离网预测问题上预测结果,发现随着训练数据量的倍数增长,两种多层算法在预测精度上的提升幅度要高于单层随机森林(例如同样是用四个月的数据量与一个月的数据量进行对比,单层随机森林预测结果的PR-AUC值提升了4.80%,而四层分类森林提升了6.09%,四层回归森林更是提升了6.58%),证实了在大数据量下,多层模型较单层模型有更强的特征学习能力;b)对比在不同的时间延迟上(分别是后面第一个月、后面第二个月、后面第三个月及后面第四个月)多层分类森林及多层回归森林预测结果,发现随着时间延迟的线性增长,两种算法在离网预测上的预测结果相对于单层随机森林有更小幅度的下降(例如延迟一个月时,四层回归森林的 PR-AUC值比单层随机森林高6.82%,而延迟四个月时,四层回归森林的 PR-AUC值比单层随机森林要高39.57%),这也支撑多层模型较单层模型在未来更长时间内有更好的预测能力。