利用数据挖掘实现电信业的客户流失预测分析

被引量 : 0次 | 上传用户:wanfl1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
客户频繁流失是电信企业发展中所面临的一个严重问题,随着国外电信运营商的涌入,这个问题必将进一步恶化。为减少或避免客户的流失,本文给出了一种行之有效的解决方案:利用数据挖掘知识建立客户流失预测模型,用此模型挖掘出将要离网的客户,再根据这些客户的通话特征和业务喜好采取针对性的措施加以挽留。本文围绕客户流失预测模型的四个步骤进行了分析:问题的定义,数据预处理,建立模型,模型优化与评估。 问题的定义中给出了要解决的问题和要实现的目标,数据预处理从如何选择样本数据、消除噪音、数据转换、特别是属性的选取方面进行了阐述。在属性选取时根据Fisher函数把对分类影响小的属性删除,由Pearson’s Correlation Coefficient将相关联的属性合并,用Singular Value Decomposition减少属性向量空间的维度。 建模是预测的结果是否有应用价值的关键所在,本文从客户分群和离网预测两大方面进行研究。客户分群作为预测的基础为分类器提供有共同特征的用户群体,使得预测分析可以在不同的群体上进行。为了减少调整簇中心所带来的计算代价,本文给出了一种改进的k-平均算法来得到具有相似特征的用户群体。离网预测采用了决策树分类器,本文在描述决策树算法中所涉及到的建树、代价计算、剪枝等问题之后,给出了在建树中和建树后分别加入限制条件的修剪算法。建树阶段设置大小限制的修剪算法是通过计算出不完整树的最小代价得到优化树的代价上限,根据此上限以及计算出的节点的实际代价来修剪节点的。在预测模型中应用了在建树阶段加入大小限制条件的修剪算法。另外,还解释了决策树分类时如何寻找最佳分裂指标和确定分裂点的问题。分裂指标采用了gini index计算方法,确定分裂点时使用了CAIM算法对连续型属性进行了离散化处理。模型优化采取了交叉验证和boosting技术,最后给出了预测分析的结果。
其他文献
在未来的经济发展进程中,中小企业必将广泛的应用电子商务及其相关技术,以提高企业对市场的应变能力和竞争能力。本文分析了中小企业电子商务网路营销的现状、存在的问题,并
根据实际运行数据表明,雷击依然是对输电线路安全可靠运行造成危害的主要原因。雷击轻则会对输电设备造成损坏,使雷害地区大面积停电,重则会对个体生命造成威胁,或是对工农业
本文从分析休闲服装近年的需求增长及影响因素和品牌化发展趋势,得出企业要抓住休闲服装这一国际化市场需求发展的机遇,就是要按市场经济规律要求从品牌运营做起,论述了品牌运营
利用室内平板对峙法对分离和收集的101株放线菌、31株细菌和24株真菌测定了其对小麦全蚀病菌(Gaeumannnomyces. graminis var. tritici)抑菌活性。结果表明,大多数株菌株均对小
旅游地产在中国已经有近三十年的发展历史,呈现出自身行业特点,如季节性、需求具有弹性等。在对旅游地产开发运营实际过程中,形成固有模式,愈加重视对文化主题和内涵的挖掘与
传统的混凝土研究是建立在纯粹的现象学手法、基础之上的,自从当代结构分析领域中引用计算机和软件程序以来,人们开始感到需要“现实的材料规律”。国际知名的混凝土学者F.H.wi
一、实施就业创业提升工程1.完成城镇新增就业18.5万人,农村劳动力转移就业3.76万人,动态消除城乡'零就业家庭'。2.扶持微型企业3000家以上。3.培育市级以上孵化器(
交通事故车速鉴定研究是确定交通事故的性质、分析事故原因的重要证据,同时也是事故责任认定的重要依据。本文以一起交通事故的车速鉴定研究为例,结合事故再现模型,运用力学
研究了冷冻/解冻法制备的不同浓度(5wt%~25wt%)聚乙烯醇(PVA)水凝胶的结构和流变行为之间的关系.由XRD确定了凝胶中PVA的结晶度和晶粒尺寸.用应力流变仪研究了凝胶的流变行为,
目的探讨中性粒细胞与淋巴细胞比值(neutrophil to lymphocyte ratio,NLR)和C反应蛋白(CRP)在急性脑梗死患者中的临床意义。方法收集2013年12月至2014年12月间急性脑梗死患者