论文部分内容阅读
现在,数据挖掘技术在很多领域得到应用,譬如各种电商、金融领域、科学研究等。在电信行业,如何识别即将流失的客户、如何保持客户、如何对客户行为进行分析,一直是电信行业关注的主题。电信企业是典型的数据密集型企业,保存着海量的用户信息及用户行为数据,在面对海量数据的时候,传统数据仓库海量存储能力和计算能力不足的问题显得尤为突出,Hadoop技术实现了Google的MapReduce的并行计算模型,为解决上述问题提供了技术手段。本文以江苏某运营商真实数据为背景,对电信行业的客户流失技术进行了相关分析和研究。某运营商每天到达的客户数据非常庞大,要从中分离出流失和未流失客户的工作量是巨大的。如果利用传统的数据库技术,其成本很高,而且效率很低。论文研究内容是在客户流失模型上设计适合预测分类的并行算法,将并行算法在MapReduce计算框架上实现,且应用于电信业的客户流失分析中。论文设计了基于MapReduce的客户流失预测模型,引入一个校正因子对ID3决策树算法改进,并将改进的决策树算法并行化;同时,利用MapReduce并行计算框架实现算法,验证算法的高效性;并将其应用于电信行业的客户流失分析中,与传统数据仓库的客户流失分析进行比较。研究结果表明,引入校正因子的决策树算法可以克服原始ID3决策树算法中存在的多值偏向问题,提高了客户流失预测的准确率;同时,基于MapReduce的并行决策树算法在面对大规模数据集时,有趋近于线性的加速比和良好的扩展性能;而且,在应用于实际电信业的客户流失分析中时,与传统的数据仓库相比,可以提高准确率和节约时间开销。本文对电信客户流失进行分析研究是基于MapReduce并行计算框架的,Hadoop平台能快速处理海量数据,让企业及时采取措施,同时减少了时间开销。该研究结果对电信企业降低运营成本,提高经营业绩有着非常重要的现实意义。