论文部分内容阅读
形式概念分析是德国数学家Wille教授于1982年提出的一种对形式背景中的数据进行分析和知识获取的有力工具。如今,形式概念分析已被广泛用于信息检索、知识挖掘、知识推理等众多领域。在形式概念分析中,概念格的构造及应用始终是两个重要的研究方向。本文基于概念格构造存在的高时间复杂度的问题,以减小概念枚举空间为目标,着重研究了基于属性集拓扑基的形式概念分析方法及应用,即基于属性集拓扑基的形式概念的构造,基于属性集拓扑基的频繁闭项集挖掘和极小-极大关联规则挖掘,面向对象(属性)概念格规则提取和属性约简,以及概念格在社会网络中的k-等式概念挖掘算法。具体内容如下:(1)频繁闭项集的挖掘和极小-极大关联规则挖掘。频繁闭项集即为概念格中的概念的内涵,基于概念格的频繁闭项集和关联规则挖掘是形式概念分析的一个重要研究方向。基于频繁闭项集挖掘存在的高时间复杂度的问题,针对已有算法以项(属性)为单位枚举频繁闭项集的枚举空间大的特点,提出了基于属性集拓扑基的频繁闭项集挖掘方法。利用属性集拓扑基的性质,构造了一种TT-tree搜索空间。基于此空间可同时进行事务空间和属性空间上的搜索,且该空间相对已有算法的搜索空间更小。提出了基于属性集拓扑基的频繁闭项集挖掘算法TT-Miner,通过向已有频繁闭项集中添加属性集拓扑基中元素的方式枚举频繁闭项集,相对于传统的添加属性的方法,本文提出的算法具有更高的挖掘效率。提出一种新的基于TT-tree的极小-极大关联规则的快速挖掘方法。(2)概念格的构造。如何构建概念的搜索空间以减少重复概念的生成是构造高效的概念格生成算法的关键。讨论了概念格生成算法在概念的生成过程中,属性的顺序与概念的搜索空间大小之间的关系。基于属性集拓扑基的性质,将属性按照对应的拓扑基中元素的基数降序排列可有效缩小概念的搜索空间,减少重复概念的生成。给出了属性集拓扑基的生成算法和属性集上的序映射函数,进而提出了基于属性集拓扑基的概念格生成方法并设计了生成算法。实验结果表明,其概念生成效率高于目前已有算法。(3)面向对象(属性)概念格的决策规则提取和属性约简。基于面向对象(属性)的形式概念,提出了面向对象(属性)的决策规则的概念。构造了条件属性概念格及决策属性概念格外延集合上的等价关系,借助相应的等价关系,提出了面向对象(属性)决策规则获取方法。提出了保持面向对象(属性)决策规则的形式决策背景属性约简的概念,借助相关概念的区分属性构造区分函数,给出了约简的计算方法。(4)概念格在社会网络中发现等式概念。社会网络是一种对象集与属性集均为节点集合的具有对称结构的特殊的形式背景。基于现有社会网络中基于概念格构造方法的等式概念生成方法在效率方面不足的问题,利用等式概念的性质和基于属性集拓扑基的概念生成方法,提出了一种新的剪枝策略,进而给出了社会网络的k-等式概念快速生成算法。实验表明,其等式概念的生成速度较目前已有算法有明显提高。综上所述,本文对基于属性拓扑基的形式概念分析方法进行了深入研究,取得了一定的研究成果。这些成果在概念格的构建和形式概念分析的应用方面有着很好的前景。