论文部分内容阅读
粗糙集理论是一种处理不精确、不一致、不完备和模糊数据的数学工具,它是由波兰学者Pawlak于1982年所提出。粗糙集理论的核心是通过等价关系将信息系统中的论域进行划分,得到很多个对象集,这些对象集也称之为等价类或者说是人类所需要的有意义、有价值的知识。由于经典粗糙集是基于等价关系将信息系统中的论域进行知识划分,因此它仅能够用于处理离散型数据。在处理数值型数据时,经典粗糙集需要将该类型数据进行离散化处理,然而,在离散化处理的过程中将会使数据的内部机构发生改变,并且可能会造成一些重要的信息丢失,使数据集的数据挖掘能力降低。为了解决这一局限性,学者们将经典粗糙集进行了拓展和改进,接着,邻域粗糙集模型和模糊粗糙集模型相继被提出。然而,在实际应用中,存在数据测量误差、科学技术的限制和对数据的理解误差等因素,都将会使得所获取的数据是不完备的。而目前的信息系统中的数据大都是混合型,即离散型、数值型和缺失型三者至少满足两者。因此,如何从这复杂而又庞大的数据量中有效地挖掘出有价值、有意义的知识已成为当今大数据时代所研究的重点课题;如何对现有的数值度量方法进行改进;如何定义一个适合评估混合不完备信息系统的不确定性度量函数。针对上面所提出的这些问题,本文将依次对它们进行改进,提出对应的不确定性度量方法,本文的主要工作内容概括如下:(1)本文针对目前现有的数值度量方法进行了一个改进。精度、粗糙度以及近似精度和近似粗糙度是较早提出的四种单一数值度量方法,但是它们在评估信息系统的不确定性时,存在一些缺陷,为了解决这些问题,本文定义了一种基于粗糙度和模糊度的组合不确定性度量方法;接着,又考虑到信息系统中各个决策类的大小不同,其模糊度和粗糙度对整个系统的不确定性影响程度也不相同,为了解决这个问题,本文又为每个类赋予一个权重,然后提出了加权组合不确定性度量方法,并给出了相关的性质。最后通过UCI实验结果表明,本文所提出的加权组合度量方法具有更好的不确定性度量效果。(2)本文定义了一个适合评估混合不完备信息系统的不确定性度量函数。在实际应用中,大多数信息系统中的数据都是混合类型。为了度量混合不完备信息系统的不确定性,本文考虑了信息系统中数据的分布情况,定义了一种具有容差能力的距离函数,进而提出了一种改进的不完备邻域粗糙集模型,并基于该模型分别定义了混合近似精度和混合近似粗糙度的概念,接着考虑到这两种单一数值度量方法只能够评估集合边界域的大小,却不能够度量知识粒度的大小。为了解决这一问题,本文从信息论和粒度的视角来对信息系统的不确定性度量进行研究,然后定义了邻域容差信息熵的概念,最后,将混合近似粗糙度和邻域容差信息熵这两种单一度量的优点结合起来,提出一种组合度量方法,并研究了相关性质。UCI实验结果表明,本文所提出的度量方法具有更好的度量效果,从而验证了该方法具有一定的优越性,并且从理论上也证明了该方法的可行性。本文的创新点主要概括如下:(1)提出的加权组合度量方法,不仅仅克服了单一数值度量方法的缺陷,还考虑了信息系统中各个类的不确定性对整个信息系统的不确定性有着不同程度的影响,从而引入权重的概念,最后提出了加权组合度量方法。(2)考虑到目前信息系统中的数据大都是混合类型,为了能够处理混合不完备信息系统的不确定性度量问题,并且考虑数据本身的分布特点,针对数值型属性和符号型属性分别设置不同距离公式,并且建立一种改进的不完备邻域粗糙集模型;接着,分别定义了混合近似粗糙度和邻域容差信息熵的概念,其中混合近似粗糙度可以很好地度量集合边界域的大小,而邻域容差信息熵是从信息论或粒度的角度来度量知识粒度的大小,最后融合了这两种单一度量方法各自的优点,提出了组合度量方法,并且能够更加有效的度量信息系统的不确定性并获得较好的分类精度。