论文部分内容阅读
非平衡数据集是指同一个数据集中某些类的样本数远远少于其他类的样本数,它广泛存在于现实生活中.利用传统的机器学习方法分类,对于数目少的类来说分类准确率很低,而对于数目多的类则相对较高.但在非平衡数据集中,数目少的类往往是关注的对象,因此传统算法对于解决非平衡数据集分类问题的能力有限.近年来,非平衡数据集的分类问题得到了国内外专家的广泛关注,取得了一些成果,并在相关领域得到应用.本文在KAIG模型的框架下,基于信息粒的观点,对非平衡数据集分类问题和知识获取做了进一步的研究,并将其应用于电信客户流失预测领域中.本文主要取得了以下研究成果:(1)对KAIG算法进行了部分改进,引入了Purity参数来度量粒重叠的程度.实例表明它有利于确定粒重叠程度和在无法完全消除粒重叠现象时可以设定一个阈值来判断是否达到某种可接受的粒重叠程度,这为原有KAIG模型提供了一个新的度量工具.此外在利用次属性解决粒重叠问题时,若属性值为连续型数据,则将其转化为离散型数据再利用次属性来降低粒重叠程度,不断由Purity参数来决定是否校正次属性区间.虽然不能完全消除粒重叠,但是可以大大减少粒重叠的程度,有助于更有效地在属性值为连续型数值型数据中提取规则.实验表明改进的KAIG算法不仅对非平衡数据集分类性能较好,而且对于平衡数据集的分类性能也与其他传统分类算法基本相当,特别在当属性值是连续值时比原有KAIG算法分类性能更好.(2)将改进的KAIG算法应用于电信客户流失预测问题.由于电信客户流失是较为典型的非平衡数据集,以山西省某市某电信运营商2007年4月至7月的固定电话用户的数据为训练集,对其提取规则,并预测了2007年8月的客户流失情况.同时与目前该运营商以C5.0和Logistic回归方法为核心的客户流失预测模型进行了对比,实验证明了该算法的有效性.在针对电信客户流失预测的实际问题中,首次将ROC曲线引入来度量电信客户流失预测的准确率.本文对非平衡数据集的分类问题和电信客户流失的预测问题进行了一些研究.但是,如何对具有定性属性或者混合属性的非平衡数据集进行有效分类以及如何将竞争对手分析、服务质量等纳入电信客户流失预测模型中还值得研究.本文的研究工作只是一个尝试,相关工作还有待进一步研究.