论文部分内容阅读
欠费问题一直是电信面临的一个严重问题。通过对已有欠费数据使用数据挖掘技术来对欺诈客户的行为进行分析和预测,达到对欺诈行为的侦察与防范,这在发达国家目前也不够完善,在中国则几乎处于起步阶段。电信欠费属于数据挖掘中的分类预测问题,通过历史欠费和未欠费数据找出欠费模式,并用此模式对未判定数据进行分类。数据挖掘中常用的分类方法有决策树、贝叶斯分类、神经网络、遗传算法等,其中决策树因为直观,易于理解,得到较为广泛的应用。本文将基于gini系数的CART算法与基于信息熵的C4.5算法和ID3算法置于电信数据中进行比较,找出最适合电信数据的算法,然后将这一最优算法与递增式学习算法相结合,得到改进算法,使其能够处理递增的数据。以改进算法为核心建立电信企业欠费客户预警系统,对可能欠费的客户及时地在线识别,从而最大限度地减少由此造成的损失。在系统的实现过程中,采用观察法随机收集数据,采用双变量统计分析方法进行数据特征选择,以分类树的代价-复杂性最小为标准剪枝,以误分类代价的诚实估算值最小为标准,采用测试样本估算法选择最优子树,采用简单验证方法对模型进行评估。