论文部分内容阅读
摘要:针对传统的关系型数据管理技术在电信企业面对海量数据对客户流失进行分析研究时存在的海量存储能力和计算能力不足的问题,提出了一种基于MapReduce架构的并行决策树算法,该算法采用校正系数来避免ID3算法多值偏向问题,并应用于客户流失分析中。在Hadoop 集群平台上的结果分析表明: 基于MapReduce并行模型能够解决电信企业进行客户流失分析时处理大规模数据的问题,在保证分类准确率的情况下能获得趋近线性的加速比,并具有较好的扩展性。
全文查看链接
本文将电信企业连续三个月的客户数据作为训练数据集,一个月的客户数据作为测试数据集,每天的客户信息数据可以达到20GB,其中,总客户数据量约80万,包含原始属性48个。经过人工经验以及前面提到的属性约简方法对属性进行删除概化,得到一个含5个属性的数据集。
全文查看链接