论文部分内容阅读
知识发现(KDD,Knowledge Discovery in Databases)是从数据中获取知识的一种智能信息处理技术。本论文在深入分析国内外相关研究成果的基础上,首先利用粒度计算理论,独立于具体算法,展开对基于分类模型的知识发现机理的研究,以探讨信息系统中知识形成的一般性规律和内在机制,并由此分析KDD研究中若干问题及其存在的根源。然后,在充分研究多种面向KDD的计算方法的基础上,提出新的理论和方法,对个性化知识发现、效率和准确率问题以及KDD算法的早熟收敛等问题展开了研究,形成一套有效的解决方法,拓展了传统的知识发现方法。本文的主要工作及创新性成果如下: 提出并构造信息系统的知识粒度空间——超粒度空间(S_GS)和全粒度空间(AllGS),找到了定义于超粒度空间之上的格和布尔代数。利用格的性质,得到了全粒度空间.的结构模型——超树,其节点代表全粒度空间中的粒度。布尔代数、格和超树及其有关性质,进一步丰富和完善了KDD的几何和代数理论体系,初步形成了信息系统知识空间的数学模型和拓扑结构。在现有决策逻辑语言的基础上,定义用于粒度描述的正基语言,提出并研究“全粒度空间+正基语言”的粒度计算模型,找到了正基语言系统、全粒度空间和基本概念空间的关系,证明了这种关系是正基语言系统到全粒度空间的一个满射。进而分析了知识的形成机理和个性化知识发现问题存在的根源,把知识发现归结为,在全粒度空间(或超树)中搜索各目标概念的最佳粒度表示并形成其有效描述的过程。显然,该过程是基于提出的模型,而粒度空间、超树、格和布尔代数等的有关性质由此而得到完美的结合并在搜索过程中发挥重要的启发作用。同时,分析了一些KDD算法存在早熟收敛、局部知识产生的原因等,提出本文解决方法的基本思路。 基于RS理论提出完备的个性化属性约简算法——DA-FPR算法。该算法的特点是,首先构造分辨矩阵的极小全空间以及基于空间的Θ_简化运算和x_子化运算;然后在用户偏好的作用下,通过交替用运这两种运算(交替次数不超过条件属性集的大小),逐步去除用户不感兴趣的条件属性,最终使得极小全空间收敛于单目空间;最后可由单目空间直接得到所需的约简。实验表明,极小全空间的规模与训练集规模几乎无正比关系,算法时间开销主要是用于构建极小全空间;而之后的操作基本上是基于条件属性集合的简单运算,其时间开销与前面相比,是非常小的,所以算法具有较高的效率;并在与已有方法对比的基础上证实了算法的有效性。文中还从理论上证明了DA-FPR算法的有效性、收敛性和完备性。 提出规则约简算法——DA-FPDR算法和决策算法极小化算法——PA-MRS算法。前者对每一条规则去除其中用户不感兴趣的属性-值对,后者则进一步去掉用户不感兴趣的整条规则。这