论文部分内容阅读
随着数据库技术、网络技术的迅速发展,人们在各个领域都积累了大量的信息。如何快速、准确地从杂乱无章的海量数据中挖掘潜在的有利用价值的信息,如何理解和解释已有的历史数据并用于预测未来的行为,这给人类的智能信息处理提出了前所未有的挑战,从而导致了知识发现领域的出现。 粗糙集理论作为一种处理不确定性信息的新型数学工具,能够分析隐藏在数据中的事实而不需要关于数据的任何附加信息,这使得采用粗糙集理论作为研究知识发现的工具具有许多优点。在粗糙集理论中,知识表达系统是信息系统(或决策表),而粗糙集理论最核心的内容便是知识约简,它也是用粗糙集进行知识获取时的主要过程。知识约简包括属性约简和值约简,前者是对决策表整体的一个约简过程,后者是对决策表产生的决策规则的进一步简化。在经典的粗糙集理论中,对属性约简有两种定义形式:代数定义和信息论定义。前者是根据决策表的正域是否发生变化来决定能否约去某些条件属性,后者是根据决策表的条件熵的是否发生变化来决定能否约去某些条件属性。当决策表相容时,两种定义对决策表处理的结果是一致的,而当决策表不相容时,结果往往不一致,而且结果没有反映出决策表中不相容样本所表达的信息。 为此,通过分析这种不一致性的产生原因,研究并发现经典粗糙集理论的两种属性约简定义在处理不相容决策表时的问题所在,认为应从决策表的最终用途——决策应用出发,来重新确定约简的思路,即不以是否改变决策表的分类能力作为约简的条件,而应将以是否改变决策表的决策能力作为约简的条件。 用决策能力作为约简的条件,必须首先要能度量决策能力。为此,提出了度量决策表的决策能力的方法——平均决策强度,并在此基础之上提出了基于平均决策强度的属性约简定义。同时,又用信息论的观点看待决策能力问题,提出了决策熵的概念及基于决策熵的约简定义。通过理论证明和实例验证,新提出的两种约简定义处理不相容决策表的结果是一致的。 决策规则集是约简的最终结果,也决策推理的主要工具。通过新的约简模型获得的决策规则集是满足平均决策强度条件的规则集,我们称之为MDP规则集。由于从决策表中计算MDP规则集运算量很大,如果能够从一个不完整的训练样本集开始学习,然后在应用过程中根据新来的样本对规则进行动态地调整,即要求系统具有增量学习的能力,那么将大大降低这种运算的复杂度。为此,提出了一种从决策表中增量获取MDP规则集算法,实验表明,该算法实用有效,特别适合一些动态变化的信息系统。 决策推理是知识获取结果的最终应用,在推理中希望有匹配率高的规则集和识别正确率高的推理方法。为此,提出了由MDP规则集获取适应度更广泛的增强的MDP规则集的方法,并给出了高决策强度的推理策略,通过对比实验,增强的MDP规则集在高决策强度推理策略指导下可得到更高的规则匹配率和识别正确率。 基于粗糙集理论的不相容知识获取研究不仅为知识获取提供一种新的视角和手段,同时也丰富了粗糙集理论的研究内容。