Rough Set理论及其在数据挖掘中的应用研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:eidolonfish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Rough Set(又称Rough集、粗集、粗糙集)理论是二十世纪八十年代发展起来的一种处理不精确、不确定和模糊数据的新型数学工具,它能有效地从数据本身提供的信息中发现有效的、潜在的知识。近年来该理论成功地在机器学习、数据挖掘、智能数据分析等领域得到了广泛应用,受到了众多学者的重视,取得了较大的发展。论文就Rough Set理论在数据挖掘中的应用所涉及到的一些关键技术问题进行了研究。众所周知,在大型知识库中,经常存在大量的冗余数据。冗余数据的存在,不仅浪费储存空间,而且干扰了人们做出正确而简洁的决策。所谓知识约简,就是在保持知识库的分类或决策能力不变的情况下,删去其中不相关或次要的知识。论文从信息论的角度来研究信息系统的知识约简问题。论文研究和讨论了Rough Set理论的代数表示和信息表示,并作了较全面、系统的比较和分析,并且发现一些规律:① 当决策表的条件属性增多时,决策属性集相对条件属性集的条件熵的变化规律呈非严格单调递减性;② 如果知识约简以决策表的核属性集为起点,那么在向约简结果中添加不能约简的非核条件属性时,决策属性集相对约简结果的条件熵的变化规律是单调递减的;③ 知识约简后决策表的条件熵等于初始决策表的条件熵。在上述规律的基础上,论文提出了两个新的基于Rough Set理论的启发式知识约简算法:CEBARKCC算法和CEBARKNC算法。然后,论文对CEBARKCC算法、CEBARKNC算法和基于互信息的知识约简算法(MIBARK算法)的时间复杂度从理论和实验上做了分析与比较,得到结论:若一个决策表的核值比较大,则CEBARKCC算法和MIBARK算法的效率要优于CEBARKNC算法;反之,则CEBARKNC算法的效率要优于CEBARKCC算法和MIBARK算法。并且,实验结果表明在大多数情况下,CEBARKCC算法和CEBARKNC算法能得到最小相对约简。事实上,数据挖掘的许多对象信息是不断增加的,如客户信息、销售信息、生产信息、网络信息等。另一方面,许多系统要求实现实时在线处理,如入侵检测系统、邮件分析系统等。针对这些应用,论文对增量式的知识获取算法进行了研究。论文讨论了在新增数据时,新数据(样本)与已有知识(即规则集M)的关<WP=6>系,对新样本的分类进行了新的定义。并且,发现在新增样本时属性约简及值约简的变化规律,得到三个定理。这些定理说明:① 当新增样本与匹配时,最小规则集保持不变,也就是说对于决策表最小化算法的两个步骤都不需重新计算;② 如果新样本与部分矛盾或类部分矛盾或类匹配,我们可以通过比较与新增前的论域U上各个样本在属性约简结果R的属性上的值是否相等来判断属性约简是否改变;③ 增加新样本后的论域U’中属性约简保持不变时,U中与不矛盾的样本之值约简保持不变。在这些定理的基础上,论文提出了一个新的基于Rough Set理论的增量式知识获取算法(IKAA算法)。并且从理论和实验上对新算法和传统的基于Rough Set理论的非增量式知识获取算法(NIKAA算法)在复杂度上做了分析与比较。研究表明:当新样本匹配时,IKAA算法运行时间在数量级上远小于NIKAA算法;当新样本是部分矛盾、类匹配、类部分矛盾,且R保持不变时,IKAA算法运行时间小于NIKAA算法运行时间;当新样本是部分矛盾、类匹配、类部分矛盾,且R变化时,IKAA算法运行时间略大于NIKAA算法运行时间;当新样本是完全矛盾、类完全矛盾时,IKAA算法运行时间略大于NIKAA算法运行时间。当然,考虑到不同种类的新增样本的比例,一般而言IKAA算法运行时间显然是小于NIKAA算法的运行时间。基于Rough Set理论的应用研究较多,考虑到电子邮件过滤是当前研究的热点,论文拟用Rough Set理论来解决这个问题。从而提出并分析了电子邮件过滤系统的粗糙集模型;接着,依据电子邮件过滤系统的粗糙集模型,建立起相应的信息模型;然后,提出了基于Rough Set理论的针对个人用户的实时电子邮件过滤原型系统,并通过实验进行了验证。研究表明基于Rough Set理论的电子邮件过滤分析是可行的,是该理论在计算机网络信息安全领域具体应用的一次尝试。目前,国际上围绕 Rough Set理论与应用出现了相应的软件支撑系统,如Rough Enough和 Rosetta等,我国在这方面的研究还处于起步阶段。为了更好地推动Rough Set理论的研究与应用,论文设计并开发了一个基于Rough Set理论的数据挖掘实验系统RSet,该系统成功地集成了数据挖掘和数据准备方面的功能,其完整性、协调性、可扩展性和效率性都较好。
其他文献
讲话是人们最重要的交际形式之一.语文教学讲话能力的高低影响着学生学习收效的大小,语文教师要努力历练课堂讲话能力.
XML是Internet上最优秀的数据交换格式之一。近年来,学术界和工业界对XML数据处理投入了很大的热情。为了有效地组织和管理XML数据,研究人员提出了不同的解决办法。其中,人们
随着我国越来越多的企业开展电子商务,社会对电子商务人才的需求量与日俱增,要求也越来越高。即便如此,电子商务专业人才的供给与企业需求之间仍然存在相当大的差距。只有具
基于Internet的电子政务已经成为政府部门工作的新模式,由于不同业务系统之间的异构性和自治性,导致系统间的互联互通及协同工作存在障碍,论文研究目标是建立一个本体驱动面
本文主要研究了利用由一个摄像机拍摄的序列图像重建三维景物的方法以及相关技术。由于该方法采用了特征集来实现,因此本文研究了边缘与直线段提取,特征点匹配与跟踪,相机参数自
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文基于现有的医学图像处理、配准和融合技术,提出了层间插值配准法、自由变形法非刚体配准法、改进的PCA融合法、改进的小波融合法。作为今后研究的基础,本文提出了用于提取S
从机器视觉和感知科学角度看,图像处理是一种由2D图像(或者图像序列)重建3D世界中几何关系、拓扑结构、模式和动力学行为的基本工具。图像处理中图像恢复和图像分割构成了低层
晚清经世实学思潮阶段性发展的特点,使得各个阶段经世人士的经济思想也不相同。地主阶级改革派是中国近代经济思想的开拓者;洋务派主张用先进的机器工业来维护封建主义,这最终导
商业道德与企业伦理是有区别的,正是这种区别决定了商业道德是主要矛盾,企业伦理是次要矛盾。分析当前中国社会主义市场经济中各种不伦理显现,借鉴国外经验,这是市场经济发展