基于MapReduce的电信客户流失分析与研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:green_wong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现在,数据挖掘技术在很多领域得到应用,譬如各种电商、金融领域、科学研究等。在电信行业,如何识别即将流失的客户、如何保持客户、如何对客户行为进行分析,一直是电信行业关注的主题。电信企业是典型的数据密集型企业,保存着海量的用户信息及用户行为数据,在面对海量数据的时候,传统数据仓库海量存储能力和计算能力不足的问题显得尤为突出,Hadoop技术实现了Google的MapReduce的并行计算模型,为解决上述问题提供了技术手段。本文以江苏某运营商真实数据为背景,对电信行业的客户流失技术进行了相关分析和研究。某运营商每天到达的客户数据非常庞大,要从中分离出流失和未流失客户的工作量是巨大的。如果利用传统的数据库技术,其成本很高,而且效率很低。论文研究内容是在客户流失模型上设计适合预测分类的并行算法,将并行算法在MapReduce计算框架上实现,且应用于电信业的客户流失分析中。论文设计了基于MapReduce的客户流失预测模型,引入一个校正因子对ID3决策树算法改进,并将改进的决策树算法并行化;同时,利用MapReduce并行计算框架实现算法,验证算法的高效性;并将其应用于电信行业的客户流失分析中,与传统数据仓库的客户流失分析进行比较。研究结果表明,引入校正因子的决策树算法可以克服原始ID3决策树算法中存在的多值偏向问题,提高了客户流失预测的准确率;同时,基于MapReduce的并行决策树算法在面对大规模数据集时,有趋近于线性的加速比和良好的扩展性能;而且,在应用于实际电信业的客户流失分析中时,与传统的数据仓库相比,可以提高准确率和节约时间开销。本文对电信客户流失进行分析研究是基于MapReduce并行计算框架的,Hadoop平台能快速处理海量数据,让企业及时采取措施,同时减少了时间开销。该研究结果对电信企业降低运营成本,提高经营业绩有着非常重要的现实意义。
其他文献
本文随机选取了南京市1400名年龄从12岁到25岁的青少年作为被试,采用《青少年手机上网的心理与行为特点研究问卷》,调查了当今青少年手机上网行为和应付方式、人际交往能力及人
目的:本研究通过对古今文献中针灸治疗呃逆的收集、整理和分析,总结并对比古今治疗呃逆腧穴规律及处方,为现代临床治疗呃逆的取穴提供理论依据和可行性借鉴,使针灸治疗发挥更好的
2011年1月28日,上海、重庆作为试点城市,开始进行房产税改革,对部分居民住房开始实征房产税,但是分析其对完善房地产税收制度、合理调节居民收入、调控房地产市场价格等的影
<正> 神话是在原始人类建立自己文化—意义世界的过程中展衍着的,一些相容的和不相容的片断,陆续地连缀着,沉积了漫长时代中产生的不同意义,“于是神话意象的多义性、歧义性,
<正> 眠尔通薄层层析所用的显色剂多为1%对二甲氨基苯甲醛浓盐酸溶液,2%香荚兰素浓硫酸溶液;对苯二酚—香荚兰素浓硫酸溶液;10%糠醛浓盐酸溶液。其中前三者的灵敏度均在3微克
石灰石/石灰因价廉易得而一直作为湿式烟气脱硫(FGD)的两种主要的吸收剂。为提高脱硫率和石灰石/石灰的利用率,可采用适宜的添加剂。本研究以两种不同结构的旋流板塔和双搅拌釜
词块是介于词与句子之间的多词现象,融合了语法、语境和语义的优势,在英语写作教学中能起到积极的促进作用,有利于缓解初中生限时写作压力,克服母语负迁移的影响并提高写作的准确
河北省地处京畿要冲,具有环京津的区位优势,是我国北方棉粮生产大省,农业在本省的经济结构中有着举足轻重的地位。随着农业生产的发展,土壤肥力质量的高低与分布规律、如何实现土
资源优化配置是提高经济效益,促进经济发展的重要途径,其中劳动力资源作为一种生产要素,其在经济发展中的重要性也早已被实践所证明。改革开放以来我国凭着劳动力资源丰富的
我的论文的题目是“个性化网站系统”,该项目属于863计划课题(知识发现方法及其应用)的范围,并得到北京中体网科技发展有限公司的资助。本文是对实现该系统所做的工作的总结。