基于粗糙集理论的关联知识发现

来源 :云南师范大学 | 被引量 : 0次 | 上传用户:tmd632
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集理论是一种新的处理模糊和不确定性知识的数学工具。其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。它与其他处理不确定性问题理论的最显著的区别是它无需提供问题所需处理的数据以外的任何先验信息。粗糙集理论认为知识就是人类和其他物种所固有的分类能力,粗糙集的一大优势就是其极强的分类能力[史忠植,2002]。传统的关联规则挖掘算法没有对数据集进行属性的约简,这将导致挖掘出的关联规则可能存在大量的冗余,不利于决策者的结果分析和决策。而且传统关联规则挖掘算法仅适用于布尔型(定性)的关联规则的挖掘,不能直接进行定量的规则挖掘。 有鉴于粗糙集的这些优势,粗糙集理论便被运用于关联规则的挖掘中。将粗糙集理论运用于关联规则的挖掘大致经历以下过程:预处理——将连续属性离散化,处理矛盾信息等,属性约简——包括两个过程,属性集的约简和属性值的约简,规则提取——关联挖掘。 论文主要工作: (1)对知识表达理论应用于粗糙集理论进行了研究,引用了知识量、平均知识量、熵和联合熵等概念,并将联合熵,即条件属性集和决策属性集的联合表达的平均知识量,应用于粗糙集的连续属性离散和属性约简中,作为处理的判别标准; (2)对连续属性离散化的一种方法“增类减类算法”进行了改进,提出了连续属性联合熵离散化算法。增类减类算法经历了两个过程:先将每个属性分为两类,此时判断新的属性集的支持度——是否满足与原属性集的支持度相等的条件,若相等,停止增类过程;若不等,则继续对下一个属性进行增类过程,直到满足条件。然后进行减类过程,依次对每个属性的分类数减少一个,判断新的支持度是否满足同样的条件,若满足则继续对下一个属性进行减类,若不满足,则停止减类过程,该属性的分类数即为此次减类前的分类数。而连续属性联合熵离散化算法根据支持度和属性离散的性质,只进行了一个减类过程,以初始时等价类作为初始分类,然后对各个属性按分级聚类法减少一个该属性等价数的分类,看是否满足条件属性对决策属性的联合熵相等的条件,若满足则对下一个属性进行同样的减类处理,直到支持度下降为止。 (3)为求属性集的等价类引入了等价类的二进制表示,属性集的等价类可以通过各个属性等价类的二进制表示的与运算来求解,通过属性及属性集的二进制表示还可以求解关联规则的支持度、兴趣度和准确度。在规则的发现中结合了支持度、兴趣度和准确度作为关联规则过滤的阈值。 (4)给出了决策属性等价类算法来求解决策表的属性等价类;给出了二进制支持度算法来为求解关联规则的支持度,而兴趣度和准确度都可以通过支持度来计算;为求解有效关联规则给出了有效关联规则算法。
其他文献
本文阐述了数字化校园的基本理念及发展现状,指出了目前数字化校园建设中存在的主要问题。从数字化校园建设的实际要求出发,以数字化校园理念为基础,采用最新的Web服务技术,构建
软构件技术是支持软件复用的核心技术,在基于构件的软件开发过程中,构件库系统扮演着一个重要角色。在构件库的管理中,检索和提取满足用户需求的构件一直是构件库系统的核心
信息家电是计算机技术、通信技术与传统家电控制技术结合的产物。随着全球信息化时代的到来,家电设备的信息化是发展的必然结果。但是家电领域至今没有形成统一的行业规范和协
在宽带产业中,宽带接入服务提供商ISP与内容提供商ICP都面临着盈利的难题。ISP的接入用户数快速增长,但用户增长速度与宽带使用率远远低于预期目标;ICP则除了广告费用以外没
为了能够快速准确的进行焦炭自动分析,本文所涉及的研究项目设计并实现了一个焦炭光学组织自动分析软件,包含了显微图像自动采集、焦炭成分识别、焦炭成分分析三大功能。  显
  本文在借鉴现在的客户管理的先进理念,结合目前商业银行的现状,开发了基于WEB模式的商业银行的CRM系统原型,实现了客户关系管理的基本功能,并将数据挖掘技术与CRM相结合。在
自从我国将发展“数字海洋”列入“十五”和2015年国家海洋科学技术发展计划以来,研究、发展有关海洋信息可视化的理论、技术与方法就成了一个急需面对的问题。本文就海洋信
随着半导体工艺向超深亚微米推进,处理器的设计复杂度随之提高。这使得处理器的测试面临着越来越多的挑战,特别是处理器的时延测试已成为工程应用的需要和测试研究领域的热点
小波图像编码是近年来随着小波分析理论的发展而提出的一种具有很好发展前景的图像编码方法。 本文主要研究了基于提升方法的整数小波变换,以及基于整数小波变换的可分级图
当前企业应用系统开发过程中存在着大量的信息处理。作者把应用系统中的信息处理过程划分为两种:紧耦合的信息处理和松耦合的信息处理。这里所说的与应用系统本身紧耦合的信