论文部分内容阅读
数据挖掘是从20世纪90年代以来迅速发展起来的一门新兴技术.其处理对象是大量的日常业务数据,目的是将隐含的、尚不为人知的,同时又是潜在有用的信息从数据中提取出来.机器学习为数据挖掘的实现提供了理论基础,包括从原始数据库中提取信息,并以可理解的形式表达知识,进而适用于各种用途.机器学习算法对其处理的数据集合一般都有一定要求,比如数据完整性好、数据冗余性少、属性之间相关性小等.然而,日常业务数据中一般都可能具有不完整性、冗余性和模糊性等特点.目前解决这一问题的有效手段是在执行机器学习算法之前对数据进行预处理,去掉不完整或冗余的数据.属性选择是数据预处理的一个重要环节.一种好的属性选择算法可以对数据集进行降噪与降维,使机器学习算法具有更好的效果.目前属性选择已经成为国内外研究的热门话题之一,已经有一些行之有效的属性选择算法.粗糙集合理论是一种描述不完整性和不确定性的数学工具,在机器学习与知识发现、决策支持与分析等方面有着广泛的应用.粗糙集合理论的精髓是数据约简,利用数据约简可以处理属性选择问题,目前已有一些属性选择算法的研究开始关注于应用粗糙集合理论,并初步得到实验验证.本文首先介绍了属性选择的相关技术,包括属性选择中非常关键的属性评价方法和属性搜索算法.其次,叙述了本文所涉及的粗糙集合理论的基本概念,特别分析了粗糙集合理论中的数据约简和利用区分矩阵计算约简的基本方法.进而,在剖析数据挖掘开源工具Weka系统中的属性选择实现的相关内容的基础之上,提出了一种新的属性选择算法,该算法以粗糙集合理论中的核集作为属性选择的初始集合,以对称不确定性作为属性评价方法,综合考虑了属性与类之间和属性与属性之间的相关性.最后,在实验中用Naive Bayes分类算法和C4.5决策树算法作为属性选择结果的评价器,在属性选择后的新数据集和原始数据集上分别运行上述两种算法,最后将各自的分类结果进行比较得出结论.由于此方法保留了对机器学习贡献较大的核集属性因此在具有核集属性的数据集上比其他利用空集作为初始集合的属性选择算法有更好的属性选择效果.