论文部分内容阅读
随着数据库技术的成熟和数据应用的普及,以数值形式存在的数据正以指数速度迅速增长.人们不再满足于对这些数据进行简单的事务管理和信息检索,而期望从数据中获取知识来辅助决策.这种需求,使数据挖掘成为近年来计算机领域研究的热点之一.而经过十多年的研究,数据挖掘技术已较为成熟,因此近年来研究的重点转为挖掘技术的应用,商务作为数据挖掘的主要应用领域,对知识的需求尤为显著.面对巨大的市场压力,竞争状态主要表现为企业间对最有利客户的激烈争夺上.因此潜在客户识别的研究具有重要的现实意义.该文首先介绍了潜在客户识别和分类算法概念.在此基础上,分析了潜在客户识别中存在的问题.针对条件属性取值和特定客户类别间的关联,该文在深入研究基于数理统计的算法基础上,提出一种具有统计的确定性因子算法.该算法首先根据条件属性将论域数据划分成等价类,然后计算各等价类中特定类别数据元个数与该等价类数据元总数的比值,得到确定性因子,并将其正态标准化后,作为条件属性的相关度量.实验结果表明,该算法能有效地解决知识的不确定性问题.针对属性选择的问题,该文在分析现有属性选择算法的基础上,提出一种基于推理思想的两层选择算法.该算法首先采用条件属性和类标识属性间的相关度量来判断两者的相关程度,去除与类标识属性无关或负相关的条件属性,减小了后续的学习规模,从而减少了时间开销;在属性选择中引入反馈原理,提出基于改善的属性选择模型,有效的抑制了人为给定阈值所致的选择的属性子集不是最优解或较优解问题,算法在节省时间的同时提高了属性选择的准确率,从而提高了模型精度.实验结果验证了这一结论.该文还针对相关条件属性综合要素对分类的影响,提出了一种构造变量的算法.该方法通过加入自变量来表征相关条件属性的综合要素与数据特定类别的关联,即通过模型对相关条件属性的综合要素的反映,减小了模型误差,提高了模型精度.该文在原有统计算法的基础上,结合上述改进,最后实现了基于统计和粗糙集的潜在客户识别系统原型.