基于Stacking融合模型的电信高价值用户流失分析

来源 :暨南大学 | 被引量 : 0次 | 上传用户:luozd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化产业的高速发展,各类电信服务在人群中的普及率越来越高,且近年各电信运营商公司的兴起,加大了拓展新用户的难度,而做好用户留存,尽量减少用户流失就是最大化电信公司利润的必要手段。但是要尽可能减少用户留存的成本,就需要电信公司在庞大、复杂的数据中筛选出高价值而有效的数据信息,精准预测用户流失风险。论文聚焦于电信公司高价值用户流失分析的主题,首先根据用户生命周期理论划分数据集,基于此利用用户充值金额筛选出高价值用户数据。标记是否流失后,再进行数据预处理、特征创造、样本不平衡处理、特征降维等数据处理工作,其中进行样本不平衡处理时,在对比SMOTE过采样和SMOTE-ENN混合采样结合模型的表现后,选择前者处理训练集数据。将数据导入逻辑回归、KNN、随机森林、SVM、XGBoost、Light GBM、Cat Boost中分别构建高价值用户流失预测模型,利用网格搜索找到每个分类模型的最优参数组合。比较各模型的准确率、召回率、F1分数值、AUC值等评估指标的综合表现后,构建以随机森林、SVM、XGBoost、Light GBM、Cat Boost为基分类器,逻辑回归为元分类器的两层高价值用户Stacking融合分析模型,进一步提升了模型预测效果。最后分析逻辑回归和随机森林特征贡献度排名靠前的特征,找到对高价值用户流失最重要的5个预测指标。综上所述,对于高价值用户流失预测最重要的5个指标分别是用户行动阶段使用呼入服务的总时长、上次充值后的天数、行动阶段漫游出入使用分钟数比率、行动阶段最后一天充值金额、行动阶段的总使用分钟数。单个模型中Cat Boost的综合表现最好,在高价值用户流失预测上很有应用价值。而构建的Stacking融合模型又能进一步提高模型预测性能,最终AUC指标值为0.9172,说明Stacking融合在用户流失预测这种二分类问题上很有优势。
其他文献
随着老龄化程度的加剧,各种老年疾病也相应增多,其中代谢综合征就是一种常见的老年疾病,该病使患者出现多种疾病的聚集,给患者的健康带来严重危害,显著提高患者心脑血管等其他疾病的患病风险与严重程度。同时,由于其是复杂的多系统疾病,症状复杂多样,难以进行精准识别与诊断,给医疗诊治也带来巨大的困难与挑战。针对代谢综合征识别与诊断难的现状,而中医作为我国传统医学,具有早发现早治疗、副作用小等诸多优势,在代谢综
学位
随着生活水平的提高,越来越多的消费者具有了购买汽车的能力,不仅是新车,二手车也纳入了选择范围之内,2021年的二手车交易量已经突破了1600万辆。但是在二手车交易过程中的一些问题也随之暴露出来,如交易流程不透明、缺乏统一的评估标准等。本文在总结前人的研究基础上构建了二手车评估指标体系,采用Stacking框架,构建了一个第一层为支持向量机、随机森林、GBDT、XGBoost和KNN,第二层为多元线
学位
随着我国城市化和工业化进程的快速发展,空气质量问题日益突出,目前对空气质量的研究存在预测精度低,预报时间短等问题。因此,如何对空气质量情况进行准确预报,并分析其内在相关因素的影响程度,对全社会至关重要。现有的CMAQ系统依靠物理化学方式,消耗了大量计算资源,能对空气质量进行预测,但随着预测时间延长,预测精度降低,且滞后于真实值,达不到期望的预警效果。因此,本文将CMAQ未来几天的预测值作为特征变量
学位
自2014年首起债券违约事件打破刚兑之后,我国债券市场的信用风险开始暴露,债券违约开始进入常态化阶段。然而,由于我国债市起步较晚,国内债券信用风险管理领域的研究还不够丰富,市场运行机制、预警机制与法律法规还不够健全,在一定程度上妨碍了债券市场的健康成长。因此,如何及时识别并有效规避债券违约风险,成为当前我国金融界探讨的新热点。在科技金融深度融合发展的时代背景下,本文利用我国信用债市场的公开数据和多
学位
我国的A股市场具有显著的复杂性特点,如果仅仅依靠诸如基本面分析、技术分析等这样的传统分析方式进行研判和决策,想要获得可观的超额收益已经变得不那么容易了,然而结合信息时代的创新产物——量化投资,在一定程度上可以帮助投资者以更为理性、更为高效的方式进行投资决策。量化投资中最重要的一环便是量化选股模型,其一般是基于多因子模型而构建,多因子模型最主要的便是找寻各种各样的因子和股票的收益率之间所存在的关系,
学位
准确的销量预测是企业提升市场洞察能力、精细化管理能力以及融资能力的重要基础,也是企业成功的重要手段。现实世界中的销量数据通常表现为多层次时间序列,多层次时间序列预测的重要问题是如何保证预测结果的准确性和加和一致性。现有研究进行销量预测时,大多直接对各个序列作预测,较少考虑层次结构,预测结果虽然具备较高的准确性但是却不满足加和一致性。此外,多层次序列预测方法常常采用“两步走”策略,在这个过程中需要指
学位
“高等数学”是高等院校理工科专业必修的一门公共基础课程,它对学生后续的专业课程学习起着重要的辅助作用。近些年,随着云技术及人工智能的飞速发展,人类社会进入了大数据时代。大数据技术的产生对“高等数学”教学提出了新的挑战,同时也带来了新的机遇。本文通过对“高等数学”教学现状进行分析,找出大数据背景下该课程在教学或考核中存在的问题,结合自己的教学实践,从教学理念、教学内容、教学方法和考核方式四方面探讨“
期刊
新冠疫情反复以及国际关系局势变化使得全球经济市场呈现高度不稳定性,同期我国正大力发展内循环经济,构建以国内经济为主体的发展态势,形成促进国内国际双循环的新发展格局。但是,目前地方保护主义等因素催生的省际贸易壁垒限制了市场规模的发展,影响了各省技术发展的积极性,导致生产能力下降,进而影响了各省的经济增长。基于此,探讨我国省际贸易壁垒对于经济增长的影响,通过测算省际贸易壁垒并验证其影响效应,有利于重新
学位
学位
2018年底中央经济工作会议指出,要推动制造业高质量发展。2022年政府工作报告中再次强调了制造业企业核心竞争力的重要性。制造业从根本上决定了一个国家的综合实力和国际竞争力,然而研发投入不均衡以及创新质量低下的问题制约了制造业的转型升级。因此,基于我国制造业企业微观数据对研发和知识溢出的互补性进行分析,同时探究研发与知识溢出对制造业企业创新质量的影响效应,对于推动我国制造业结构优化和转型升级具有重
学位