论文部分内容阅读
粗糙集理论是波兰学者Z.Pawlak于1982年提出的一种数据分析理论。该理论建立在论域中的不可区分关系之上,用上、下近似来描述概念,无需任何先验知识或附加的信息,就能有效地分析和处理不精确、不确定和不完全的数据。经过二十余年的发展,粗糙集理论已经成功地应用于机器学习、决策分析、模式识别、图像处理、专家系统、智能系统等研究领域。知识约简算法的研究一直是粗糙集理论研究中的核心内容之一。寻找最小约简已被证明是NP-hard问题,而目前的知识约简算法在处理大规模数据时,算法的效率和可行性都面临着巨大的挑战,研究高效实用的属性约简算法仍具有重要的价值。本文围绕知识量的性质和应用,就如何实现基于知识量的信息系统和决策表的约简算法进行了较为深入的研究。本文主要的研究成果包括:1.提出了一种新的知识度量方法。从粗糙集理论认为知识是区分事物能力的角度出发,利用不同属性的区分能力大小不同的特点,给出了知识的一种新的度量方法,其增益函数基于直观的知识含量特性,分析了度量的合理性,给出了它的一些性质,并且在知识量的基础上,提出了相对知识量的概念,用来考察属性间知识的变化情况。2.提出了两种在信息系统下基于知识量的属性约简算法。第一种利用知识量重新定义了属性的重要度,将属性重要度作为启发式信息,设计了启发式约简算法:另一种则从属性划分的角度出发,分析了属性间的划分能力可以去除冗余属性的特性,提出了左划分和右划分的概念,在此基础上,设计了基于划分的属性约简算法,最后,通过实验系统研究了这两种算法的执行效率,分析了它们各自的优缺点,证明了算法的可行性和有效性。3.设计了基于知识量的决策表属性约简算法。利用相对知识量定义的属性重要度设计了启发式约简算法,而利用相对划分的概念设计了基于划分的属性约简算法。对于后一种算法,为了使其能够适用于不一致决策表的属性约简,分析了不一致决策表转化为一致决策表而约简集不变的性质,从而保证了算法的适用性和正确性。最后,实验系统对真实数据进行了测试,从执行的结果和效率上分析比较了算法的优势和特点。最后,概括了本文的主要结果,说明本文工作的理论意义和应用价值,指出本文的不足和有待进一步解决的问题。