基于粗糙集合的属性选择方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:aidilj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从20世纪90年代以来迅速发展起来的一门新兴技术.其处理对象是大量的日常业务数据,目的是将隐含的、尚不为人知的,同时又是潜在有用的信息从数据中提取出来.机器学习为数据挖掘的实现提供了理论基础,包括从原始数据库中提取信息,并以可理解的形式表达知识,进而适用于各种用途.机器学习算法对其处理的数据集合一般都有一定要求,比如数据完整性好、数据冗余性少、属性之间相关性小等.然而,日常业务数据中一般都可能具有不完整性、冗余性和模糊性等特点.目前解决这一问题的有效手段是在执行机器学习算法之前对数据进行预处理,去掉不完整或冗余的数据.属性选择是数据预处理的一个重要环节.一种好的属性选择算法可以对数据集进行降噪与降维,使机器学习算法具有更好的效果.目前属性选择已经成为国内外研究的热门话题之一,已经有一些行之有效的属性选择算法.粗糙集合理论是一种描述不完整性和不确定性的数学工具,在机器学习与知识发现、决策支持与分析等方面有着广泛的应用.粗糙集合理论的精髓是数据约简,利用数据约简可以处理属性选择问题,目前已有一些属性选择算法的研究开始关注于应用粗糙集合理论,并初步得到实验验证.本文首先介绍了属性选择的相关技术,包括属性选择中非常关键的属性评价方法和属性搜索算法.其次,叙述了本文所涉及的粗糙集合理论的基本概念,特别分析了粗糙集合理论中的数据约简和利用区分矩阵计算约简的基本方法.进而,在剖析数据挖掘开源工具Weka系统中的属性选择实现的相关内容的基础之上,提出了一种新的属性选择算法,该算法以粗糙集合理论中的核集作为属性选择的初始集合,以对称不确定性作为属性评价方法,综合考虑了属性与类之间和属性与属性之间的相关性.最后,在实验中用Naive Bayes分类算法和C4.5决策树算法作为属性选择结果的评价器,在属性选择后的新数据集和原始数据集上分别运行上述两种算法,最后将各自的分类结果进行比较得出结论.由于此方法保留了对机器学习贡献较大的核集属性因此在具有核集属性的数据集上比其他利用空集作为初始集合的属性选择算法有更好的属性选择效果.
其他文献
直线是生成各种图形的基本元素,直线绘制是光栅图形学最基本的一个任务。直线扫描转换生成算法是计算机图形学、计算机辅助设计、科学计算可视化、虚拟现实、计算机动画等领
近些年分布式数据库具有高效读写性能、高可靠性、高可用性、动态可扩展等优势而得到了快速的发展。在分析了工业上各大厂商和学术上研发的多种分布式数据库产品之后,选择了开
计算机所存储的信息量呈爆炸式增长,关系型数据库在应对大规模数据和高并发时候显得捉襟见肘,因此在一些应用场景正在逐渐被非关系型数据库取代,近年来非关系型数据库的研究
PDF文档的广泛应用使获取其中的信息成为研究热点。PDF文档具有面向页面描述的特点,其内容的逻辑关系不明显,给信息提取带来了困难。本文面向数学表达式检索的需要,从PDF文档
随着虚拟技术的应用越来越广泛,虚拟集群成为云端一种主要执行环境。虚拟集群和传统的高性能计算平台相比,在可扩展,可配置,可维护等方面表现出了许多优越性。因此,虚拟集群
由于NAND Flash的低访问延迟和低能耗等优点,伴随着其容量的不断增长,越来越多的服务器采用闪存作为存储器。然而,不同存储服务器之间的I/O负载不均衡造成了各闪存服务器之间
人脸识别是生物识别技术中的一种。与其他生物识别技术不同,人脸识别具有使用者友好和可以被大量应用的显著优点,而这也使得它成为模式识别的一个具有挑战性的课题。人脸识别
DDoS攻击是目前网络违法行为中,不法分子使用的终极武器。由于攻击工具易于开发、攻击危害程度大、以及攻击数据包的源地址伪造而使得攻击者不易被发现,等等这些原因,使DDoS攻击
聚类是数据分析的重要工具,主要包括划分法、层次法、密度算法、图论方法、网格算法以及模型算法等方法,其中模糊C均值算法(FCM)是目前最常用的算法之一。如何提高聚类算法的
软件安全事件的频繁发生引起人们极大关注,对软件的安全性进行准确客观地分析与评估,是软件安全保障的前提和必要条件,本文正是基于此点展开论述与研究的。 为有效表示和检测