论文部分内容阅读
Rough Set(又称Rough集、粗集、粗糙集)理论是二十世纪八十年代发展起来的一种处理不精确、不确定和模糊数据的新型数学工具,它能有效地从数据本身提供的信息中发现有效的、潜在的知识。近年来该理论成功地在机器学习、数据挖掘、智能数据分析等领域得到了广泛应用,受到了众多学者的重视,取得了较大的发展。论文就Rough Set理论在数据挖掘中的应用所涉及到的一些关键技术问题进行了研究。众所周知,在大型知识库中,经常存在大量的冗余数据。冗余数据的存在,不仅浪费储存空间,而且干扰了人们做出正确而简洁的决策。所谓知识约简,就是在保持知识库的分类或决策能力不变的情况下,删去其中不相关或次要的知识。论文从信息论的角度来研究信息系统的知识约简问题。论文研究和讨论了Rough Set理论的代数表示和信息表示,并作了较全面、系统的比较和分析,并且发现一些规律:① 当决策表的条件属性增多时,决策属性集相对条件属性集的条件熵的变化规律呈非严格单调递减性;② 如果知识约简以决策表的核属性集为起点,那么在向约简结果中添加不能约简的非核条件属性时,决策属性集相对约简结果的条件熵的变化规律是单调递减的;③ 知识约简后决策表的条件熵等于初始决策表的条件熵。在上述规律的基础上,论文提出了两个新的基于Rough Set理论的启发式知识约简算法:CEBARKCC算法和CEBARKNC算法。然后,论文对CEBARKCC算法、CEBARKNC算法和基于互信息的知识约简算法(MIBARK算法)的时间复杂度从理论和实验上做了分析与比较,得到结论:若一个决策表的核值比较大,则CEBARKCC算法和MIBARK算法的效率要优于CEBARKNC算法;反之,则CEBARKNC算法的效率要优于CEBARKCC算法和MIBARK算法。并且,实验结果表明在大多数情况下,CEBARKCC算法和CEBARKNC算法能得到最小相对约简。事实上,数据挖掘的许多对象信息是不断增加的,如客户信息、销售信息、生产信息、网络信息等。另一方面,许多系统要求实现实时在线处理,如入侵检测系统、邮件分析系统等。针对这些应用,论文对增量式的知识获取算法进行了研究。论文讨论了在新增数据时,新数据(样本)与已有知识(即规则集M)的关<WP=6>系,对新样本的分类进行了新的定义。并且,发现在新增样本时属性约简及值约简的变化规律,得到三个定理。这些定理说明:① 当新增样本与匹配时,最小规则集保持不变,也就是说对于决策表最小化算法的两个步骤都不需重新计算;② 如果新样本与部分矛盾或类部分矛盾或类匹配,我们可以通过比较与新增前的论域U上各个样本在属性约简结果R的属性上的值是否相等来判断属性约简是否改变;③ 增加新样本后的论域U’中属性约简保持不变时,U中与不矛盾的样本之值约简保持不变。在这些定理的基础上,论文提出了一个新的基于Rough Set理论的增量式知识获取算法(IKAA算法)。并且从理论和实验上对新算法和传统的基于Rough Set理论的非增量式知识获取算法(NIKAA算法)在复杂度上做了分析与比较。研究表明:当新样本匹配时,IKAA算法运行时间在数量级上远小于NIKAA算法;当新样本是部分矛盾、类匹配、类部分矛盾,且R保持不变时,IKAA算法运行时间小于NIKAA算法运行时间;当新样本是部分矛盾、类匹配、类部分矛盾,且R变化时,IKAA算法运行时间略大于NIKAA算法运行时间;当新样本是完全矛盾、类完全矛盾时,IKAA算法运行时间略大于NIKAA算法运行时间。当然,考虑到不同种类的新增样本的比例,一般而言IKAA算法运行时间显然是小于NIKAA算法的运行时间。基于Rough Set理论的应用研究较多,考虑到电子邮件过滤是当前研究的热点,论文拟用Rough Set理论来解决这个问题。从而提出并分析了电子邮件过滤系统的粗糙集模型;接着,依据电子邮件过滤系统的粗糙集模型,建立起相应的信息模型;然后,提出了基于Rough Set理论的针对个人用户的实时电子邮件过滤原型系统,并通过实验进行了验证。研究表明基于Rough Set理论的电子邮件过滤分析是可行的,是该理论在计算机网络信息安全领域具体应用的一次尝试。目前,国际上围绕 Rough Set理论与应用出现了相应的软件支撑系统,如Rough Enough和 Rosetta等,我国在这方面的研究还处于起步阶段。为了更好地推动Rough Set理论的研究与应用,论文设计并开发了一个基于Rough Set理论的数据挖掘实验系统RSet,该系统成功地集成了数据挖掘和数据准备方面的功能,其完整性、协调性、可扩展性和效率性都较好。