多层随机森林算法在电信离网预测中的应用

来源 :苏州大学 | 被引量 : 2次 | 上传用户:cbgch
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在电信运营商领域,离网预测是企业决策者用来发现潜在离网用户(即停用运营商服务)的主要手段。目前,离网预测都是基于特征工程和传统机器学习算法,例如逻辑回归、决策树、神经网络及随机森林等。其中,随机森林算法凭借其能同时处理离散和连续的特征输入、分布式训练速度快及有较高预测准确度等良好特性,在电信离网预测系统中得到广泛应用。因此,改善随机森林算法,进一步提升离网预测的准确度,是本文的主要研究内容。  近年来,大数据驱动的深度学习框架在预测问题上获得巨大成功,主要原因是多层次深度神经网络能够从大量数据中组合出丰富的非线性特征,从而提升分类预测决策的准确度。受到深度学习的启发,本文聚焦回答一个问题:是否能够构造一个多层次随机森林算法来获取更好的特征进而得到比单层随机森林更高的离网预测准确度?本文提出了两种多层随机森林算法,一种是多层分类森林算法,另一种是多层回归森林算法,并在运营商真实用户数据上验证这两种算法的离网预测精度。实验数据选用连续两个月的预付费用户数据(每个月大概210万条数据),其中将前一个月数据用作训练集,而将后一个月数据用作测试集。实验结果表明,多层随机森林比单层随机森林具有更高的离网预测准确度,其中四层随机森林与单层随机森林相比,在PR-AUC值上有6.82%的提升。综上所述,本文的创新点包括:  1)本文提出了一种新的多层随机森林算法——多层分类森林,通过级联的方式,将随机森林分类器构造成多层结构算法模型,并用前一层的输出作为下一层的输入。在离网预测结果上,四层分类森林与单层随机森林对比,PR-AUC值提升了4.13%。  2)类似多层分类森林算法,本文基于Gradient Boosted Regression Tree(GBRT)思想,提出多层回归森林算法。通过级联方式,将后面每一层的回归森林目标函数设置成标签值与之前所有层结果之和的残差,通过每一层不断缩小残差回归的误差来提升算法的预测能力。在离网预测的实验结果中,四层回归森林的预测准确度要高于四层分类森林,相对于四层分类森林,PR-AUC值提升了2.57%。  3)通过大量离网预测实验对比,发现以下现象:a)对比在不同数据量(分别是1个月、2个月、3个月及4个月)的训练集下多层分类森林及多层回归森林在离网预测问题上预测结果,发现随着训练数据量的倍数增长,两种多层算法在预测精度上的提升幅度要高于单层随机森林(例如同样是用四个月的数据量与一个月的数据量进行对比,单层随机森林预测结果的PR-AUC值提升了4.80%,而四层分类森林提升了6.09%,四层回归森林更是提升了6.58%),证实了在大数据量下,多层模型较单层模型有更强的特征学习能力;b)对比在不同的时间延迟上(分别是后面第一个月、后面第二个月、后面第三个月及后面第四个月)多层分类森林及多层回归森林预测结果,发现随着时间延迟的线性增长,两种算法在离网预测上的预测结果相对于单层随机森林有更小幅度的下降(例如延迟一个月时,四层回归森林的 PR-AUC值比单层随机森林高6.82%,而延迟四个月时,四层回归森林的 PR-AUC值比单层随机森林要高39.57%),这也支撑多层模型较单层模型在未来更长时间内有更好的预测能力。
其他文献
无线传感器网络由大量具有数据感知、信息处理和无线通信能力的传感节点组成,节点间以无线多跳的无中心方式连接,能够协作地实时监测和采集各种环境或监测对象的信息,并对其进行
在普适计算的构想中,遍布于环境中的计算设施为用户提供无处不在的服务,而用户并不察觉服务和计算的存在。上下文感知计算(Context Aware Computing)通过收集与用户和环境相关
数学在整个高中学习过程中占有非常重要的地位,数学分数的提高对高中生的综合成绩也起到了很大的作用.近几年来,不少学者通过研究发现,高中数学应用题是拉开学生差距的主要题
随着社会的不断发展,信息技术的逐渐普及,在各个高校信息化的发展历程中,许多不同的业务部门都建立了相应的信息系统。随之,许多高校的校园信息化建设都不同程度地陷入所谓的“信
高中数学在高中教育体系中有着不可替代的作用.在新课改逐步推行的条件下,如何提高学生学习数学的自主能力,就成了高中数学教育的重点之一.提高学生自主学习能力的途径之一就
“世界上不可能有相同的两片叶子”,更何况教师在教学中面对的是富有丰富个性的学生呢?因此,在高中数学教学中,教师或多或少就会遇到一些兴趣不高、基础较差、学习不够积极的
当前,多核计算已成为当前计算机技术发展的主流技术之一。如果多核处理器上运行的程序自身是串行的,那么每个时刻只能有一个处理器核运行程序,而其他的处理器核都处于空闲状
数学知识内容始终处于一个不断运动发展的过程中,因此,想要完整全面地把握住数学学习的脉搏,就要采取一个动态的思维与形式来对之进行处理.具体至高中阶段的数学教学,想要在
高中数学新课程标准指出:数学不仅仅是一门学科,更是一种文化,其思想、内容和方法是数学学习的基本素养,是现代文明必须的素养.数学文化包括数学思想、数学方法、数学思维、
尽管科技在以惊人的速度发展,但并不能把灾难全部准确及时地预测出来。地震、海啸、火灾等自然灾难仍在肆虐地吞噬着无数生灵。灾难过后如何高速、有效的救灾也成为了近来人