论文部分内容阅读
客户流失预测问题是客户关系管理中的一个研究方向,其研究涉及到多学科、多因素,多环节,是一个复杂的系统。在电信客户流失预测研究上,如何构建高性能的模型从而提高预测模型的预测精度一直是研究的热点,但是影响模型精度的因素非常多,特别是在数据预处理阶段,数据预处理的好坏也会直接影响到模型构建之后的分类性能。而在现有的电信客户流失预测研究方面关于预测模型建立前数据预处理方法的研究还比较缺乏,很多还是基于经验的人工选择法;同时虽然预测模型构建方法的不断改进能提高分类性能,但模型的可解释性还是比较差的,也就是在辅助决策方面并不能发挥太大的效益。在此背景下,探索和研究数据的预处理方法以及决策规则的获取是电信客户流失预测研究的一个新的方面,将具有重要的理论意义和实践价值。粗糙集作为一种处理不确定、不精确问题的数学工具,其属性约简即特征选择和决策规则的获取能力可以用于从数据中挖掘出众多有效信息,因此在知识挖掘领域发挥着越来越强的作用。本文主要研究基于粗糙集扩展模型的特征选择方法和决策规则的获取。首先采用模糊粗糙集的理论,针对混合型数据,改进属性重要性的计算,设计改进的CEBARKNC特征选择算法,以实验数据进行特征选择,对比分析胡清华提出的模糊粗糙集特征选择算法结果。其次研究多粒度粗糙集扩展模型,将多粒度粗糙集扩展到模糊环境中,构建一种β多粒度模糊粗糙集模型,设计基于此模型的粒度约简算法,以实验数据对比分析单粒度特征选择算法结果。并提出基于β多粒度模糊粗糙集的决策规则的获取方法,以实例展示决策规则的形式。然后以电信企业数据作实证,分别以所设计模糊粗糙集特征算法和β多粒度特征选择算法选择属性后,得出的数据以分类器作预测模型进行流失预测对比分析。同时进行决策规则的获取,从而提高模型的可解释性。