基于区分矩阵的粗糙集属性约简算法在数据挖掘中的应用研究

被引量 : 8次 | 上传用户:wcyzlh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的来临,人类在各种领域中面临着越来越多的数据信息。与此同时,这些数据还在以惊人的速度不断增长。因此,为了提高工作效率和生活质量,人们必须获取蕴藏在其中的有价值的信息。为了达到这个目的,人们开始致力于从数据库中发现知识的研究。然而,众所周知,数据库中往往存在冗余数据(Redundant data)、缺失数据(Missing data)、不确定的数据(Incertain data)和不一致的数据(Inconsistent data)等诸多情况,这些数据成了发现知识的一大障碍。因此,在从数据库中发现知识之前必须对数据进行预处理。本论文着重研究数据挖掘中的数据的预处理,尤其是属性约简。粗糙集(Rough sets)理论是由Z.Pawlak教授于20世纪80年代初提出的一种用于处理不确定性和含糊性属性的数学工具。它的基本思想是在保持分类能力不变的前提下,通过属性约简,导出概念的分类规则,它无需提供相关数据集合以外的任何先验信息,适合发现数据库中隐含的、潜在有用的规律,即属性,找出其内部数据的关联关系和特征。近年来,粗糙集理论和应用取得了很大的成就,已成为软计算方法的重要分支,其涉及的领域包括模式识别、机器学习、决策分析和决策支持、属性获取、属性发现等。本文主要研究基于区分矩阵的粗糙集属性约简算法在数据挖掘中的应用。首先,阐述了数据挖掘与粗糙集理论的基本知识,在分析和总结基于粗糙集理论的数据挖掘算法的基础上,针对HORAFA算法进行了详细的分析。HORAFA算法是基于区分矩阵的启发式属性约简算法,为了改善该算法的完备性、提高它的属性约简效率和减少算法运行时间,因此,本文对HORAFA算法进行了改进,提出了基于区分矩阵的HORAFA-AFVDM(HORAFA base on Attribute frequency value of discernibility matrix)算法。该算法以核为基础,加入属性重要性最大的属性,计算属性频率函数,即等于区分矩阵中删除当前属性所在的元素之后,属性出现的频率。具体表示为:f(a)=f(a)+|A|/|c’|,对于每个a∈c,其中|A|是信息系统总的条件属性个数,|c’|为区分函数项中删除加入到核中的属性之后还剩的属性个数。为了能够找到信息系统的最优约简,在此基础上增加一个反向消除过程,从已得到的核中删除可以删除的属性,直到不能再删为止,从而保证算法的完备性。文中通过一个实例完整说明了本方法。其后,对算法进行具体的实现。为了在MATLAB环境下完成实验,对属性进行约简之前,首先要对被约简的数据集进行数据预处理。文中提出了实验中数据预处理的方法。具体过程是:将UCI数据集在SQL SERVER 2000中建立数据库,然后,通过SQL语句将数据值限定在特定的范围之内。最后在MATLAB环境下进行了实验,通过比较改进前后两种算法,表明HORAFA-AFVDM算法在属性约简情况和算法运行时间上都比HORAFA算法有明显的改进。
其他文献
【正】 一小城镇有自己产生、形成和发展的客观规律。总的来说,小城镇是社会生产力发展的产物,是社会分工和商品交换发展的结果。小城镇是在社会生产力发展到这样的程度,即劳
目的研究五子衍宗丸治疗男性不育症的临床疗效及安全性。方法选择男性不育症患者120例,随机分成两组,各60例。对照组给予口服维生素C和维生素E各100 mg,每日3次;治疗组给予口
现代汉语中,双音词不仅产生于词法,也产生于句法,词组词汇化仍然是现代汉语中双音词产生的一条途径。本文采用定量统计的方法,对现代汉语中93个发生词汇化的词组进行了考察,
针对当前国内证券公司经营情况,从均衡发展的角度探讨其盈利结构的发展。研究采用案例分析方法,以招商证券和美林证券为例,探讨处于不同发展阶段的证券公司在收入增长速度方
随着素质教育向纵深发展,要促进学生在德、智、体、美、劳全面发展,要提高学生的整体素质,开展丰富多彩的课外文娱活动,已经成了学校教育不可忽视的重要途径和手段。其中多开
我国于2007年1月1日在上市公司的会计处理过程中全面采用新会计准则,并在之后逐步推广。新准则中涉及公允价值的范围非常广,而在企业实际应用过程中却持谨慎态度。本文在相关
<正>民间音乐是一座丰富的艺术宝库,是一个民族的音乐基础,是专业音乐创作取之不尽、用之不竭的源泉。因此,研究民间音乐素材在音乐创作中的运用与发展,无论是对当前我国音乐
绑架人质是恐怖活动的表现形式之一。它具有侵害目标的针对性与选择性,犯罪动机的特定性,事先充分的准备,有些是两人以上共同实施,智能化倾向明显的特点;侦查该类案件,必须具
在总结国内外对空间相互作用量化研究的基础上,选用SSM空间模型,以珠三角九市为例,从区域空间相互作用的角度考察1995—2009年珠三角各市制造业发展的演变过程,结果表明:1995