基于混合模型的电信领域用户流失预测技术研究

来源 :沈阳航空航天大学 | 被引量 : 1次 | 上传用户:skyzbc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在电信领域中,用户流失预测是指运营商在用户流失前预测出要流失的用户,使之继续使用该运营商提供的服务从而创造利润。用户流失预测能够帮助公司减少用户的流失,这对运营商增加营收和提高竞争力有重要意义。然而,由于电信领域数据的稀疏性和不平衡等问题,国内外对于电信领域的用户流失预测大多处于研究阶段,实际应用较少。本文使用电信运营商数据集和KDD Cup比赛数据集,两组数据集都具有电信领域数据的特点。数据稀疏是指在数据集合中存在大量的空值。本文使用添加0值或平均值等方式来填充空值。本文使用的电信运营商数据集的离网率约为1.28%,KDD Cup比赛数据集的离网率约为7.34%,属于数据不平衡问题,会严重影响预测的效果。本文使用了机器学习与朴素随机过采样结合来解决电信数据不平衡的问题,实验结果显示使用朴素随机过采样后,在电信运营商数据集和KDD Cup数据集的AUC值达到0.71602和0.68574。运营商想要维系用户需要考虑维系成本,降低成本的方式是不同需求的用户使用不同的维系方案。本文利用集成的思想提出两阶段的模型混合,一阶段模型混合主要使用Bagging方法与GDBT、AdaBoost和XGBoost三个模型结合,结合后提高了预测的准确率。在一阶段模型混合后电信运营商数据集和KDD Cup数据集的AUC值提高到0.71987和0.69571。二阶段模型混合主要使用的是GDBT和AdaBoost混合的GDBT_ADA、LR和XGBoost,二阶段模型混合的目的是去寻找高危的流失用户。实验结果表明,朴素随机过采样以及两个阶段的混合模型结合使用,有效提高了模型的准确性和可用性。
其他文献
公立医院固定资产管理对医院的效益和发展有着至关重要的影响,为了实现对公立医院固定资产的科学管理,建设和改进医院的内部控制结构就显得格外重要。本文深入剖析公立医院固
违约责任是合同法中的一项重要的制度,而违约责任的归责原则是该制度的本质和核心内容。从两大违约归责原则对比中,可以看出实行单一归责原则的不足,指出国家应实施以严格责任为
如何发展区域经济?人们往往习惯于或侧重于从地区资源优势、地理优势、经济基础、工业布局、区域政策倾斜等显性因素方面寻找答案,而在区域经济管理、区域观念形态、区域文化
本文研究了右半平面上无限级Dirichlet级数的系数和增长性的关系,给出了一个判定无限级全纯函数Borel点的充分条件,证明了右半平面上ρ(1/σ)级随机Dirichlet级数几乎必然以虚轴上每一点为它的没有有限例外
本文对PtSI/p-Si红外探测器的结构进行了优化设计,并研制成功性能优良的器件。反向击穿电压达180V。在77K下,反偏4V的漏电为5×10^-6μA,对1.52μm的红外光,量子效率为2.4%。
农业产业化指的是把农产品从生产到加工,再到销售、服务等进行产业管理,像工厂一样对待,这是农业现代化的基础。在2016年国务院办公厅出台《关于进一步促进农产品加工业发展的意见》,指出农产品产业化要利用资源的优势和特色之处,以将农产品加工构建出整个产业链,着力将农产品的品种、质量、品牌、附加值优化提高。十三五规划也要求农产品加工要依托优势资源,将传统产业进行改进,找出一种新的发展模式,以此巩固农产品在
近年来,非线性切换系统在控制领域得到了极大的关注.切换系统是由切换规则有机结合起来的有限个子系统的集合.许多现代工业过程都显示出切换和混杂的特性,并且存在诸如未建模动态、输入输出和状态约束、控制增益符号未知及外部扰动等多种不确定因素.这些不确定性严重影响系统的性能甚至导致系统不稳定.目前,针对含有不确定因素的非切换系统的研究成果较多,而对具有不确定因素影响的切换系统的研究成果相对较少.因此,研究具
本文利用非紧性测度讨论了有界算子序列几个半范的关系,并把对算子序列的研究化为对单个算子的研究,对半Fredholm算子序列给出较方便的刻划,并且很简便地导出了本性谱半径公
为了提高超导薄膜经外探测器的工作带宽、响应速度和灵敏工,并便于进行集成平面工艺,设计了微桥型红外敏感元及与其耦合的领结型平面天线(bow-tia antenna),其检测波长范围可从中红外到毫米波段
本文推广了不交和运算且给出n个类型不交和的规则借助于它,证明了有穷类型的封闭性和分离性,讨论有究类型的可定义性,证明Nk可由N1和k个类型不交和而定义以及Nk可由Nk+1定义。