论文部分内容阅读
针对传统 C4.5 决策树算法在处理含有大量噪声和多值属性的大型复杂数据库中的多维度数据集分类问题时决策树分类响应时间长、准确度低的问题,提出了一种新的剪枝算法—CDC算法,并将 CDC算法应用于改进的 C4.5决策树方法中,采用混合剪枝的策略共同构成优化决策树算法,弥补了 REP剪枝算法中决策树的生长过于拟合的缺点和不足。论述了优化决策树算法的核心思想以及基本过程,同时将优化决策树算法应用于电信行业客户流失预测分析之中。通过对多属性数据的处理,建立多维客户流失优化预测模型,从整体上挖掘电信客户流失的综合规律,弥补了决策树算法只能解决单维数据集分类的不足,在保证模型具有较高准确度的同时扩大了流失预测的范围,确保了预测的普遍性。实验结果表明,优化预测模型有效地避免了决策树生长过于拟合的现象,降低了分裂时间,同时具有较高的准确度,很好地预测了电信客户的整体流失情况,是电信客户流失预测的有效方法,为电信行业客户流失分析以及相关决策的制定提供了有力的科学依据。