论文部分内容阅读
粗糙集理论是波兰学者Pawlak于1982年提出的一种能够有效进行不确定信息处理的重要数学工具。目前已经大量应用在数据挖掘、人工智能、模式识别等研究领域。随着科学的发展和自动化程度的提高,许多应用领域中都出现规模庞大且种类复杂的信息系统,这些信息系统中包括符号型和数值型等各种类型的数据。经典粗糙集只能处理符号型数据,不能处理其它类型数据。针对这一情况,专家学者将经典粗糙集进行了扩展,其中邻域粗糙集是重要的扩展之一。邻域粗糙集基于邻域关系,通过粒化的方式将类似的对象划为一类,可以有效地处理数值型数据。随着科学技术的不断进步,在数据智能化处理的研究中也出现了许多新问题。在邻域粗糙集的进一步研究与应用过程中也带来了很多新的挑战。例如,如何用邻域粗糙集解决不一致和不完备邻域决策系统中的问题;如何定义一个更适合处理数值型数据的不确定性度量函数;如何设计一个更加高效地属性约简算法等等。针对这些问题,本文以邻域决策系统为研究对象,以邻域粗糙集的模型扩展和以此为基础的属性约简为研究目的。具体研究内容概括如下:(1)本文首先分析了邻域粗糙集处理不一致邻域决策系统的不足之处,为了更好的处理不一致数据,建立了不一致邻域粗糙集模型。接着考虑到经典的不确定性度量方法难以应用到不一致邻域粗糙集模型中,结合模型特点给出了邻域条件熵的启发式函数,并证明其符合不确定性度量的基本条件。同时考虑到条件属性之间的关联程度也会影响约简结果。针对这一情况,本文引入秩相关系数的知识,提出了基于相关系数的属性约简算法。最后通过实验与其它算法进行对比,结果表明了本文所提模型和算法的有效性。(2)不完备的邻域决策系统可能会导致信息出现新的不协调,近些年来,专家学者已经提出了很多方法处理不完备数据,其中,很多研究进行距离度量时没有考虑到已有数据中潜在的信息,具有一定的局限性。针对这一局限,本文分别对数值型和符号型数据构造了新的距离公式,并在这一过程中充分考虑了数据的分布特征对距离的影响,在此基础上建立了不完备邻域粗糙集模型,并进行了实例分析证明所提模型的科学性。接着分析了基于代数和基于信息熵的不确定性度量方法各自的优点和不足之处,结合两者的优点,提出了邻域混合熵的启发式函数用来进行不确定性度量;然后,提出了基于邻域混合熵的属性约简算法。最后通过实验具体说明了该模型在属性约简、分类性能方面的优越性。本文的创新点主要包括以下几点:(1)构造了不一致邻域粗糙集模型可以有效处理不一致数据;在此基础上提出邻域条件熵的度量函数;提出了基于相关系数的属性约简算法,该算法中引入秩相关系数的概念度量属性之间的关联,能够进一步剔除冗余属性。(2)考虑了不完备邻域决策系统中已有数据的分布特征,针对数值型和符号型属性设置不同的距离公式,建立了不完备邻域粗糙集模型;结合了基于代数和基于信息熵的启发式函数各自的优点,建立了一种新的不确定性度量函数:邻域混合熵;提出了基于邻域混合熵的属性约简算法,可以有效地剔除冗余属性并获得较好的分类精度。