论文部分内容阅读
随着互联网技术的快速发展,人们获取和存储数据的能力越来越强,数据的形式也越来越丰富。在不同的场景下,数据往往有不同的采集方法和表示方法,最终的数据也会不同。常见的数据有符号型数据和实值型数据。符号型数据取值为一个单一的符号或类别值。实值型数据则可以在值域内取任意值,没有离散的概念。而如果数据表示介于两者之间,比如,不再是只能取一个值,而是每个属性值都有一定的可能性,此时这两种数据类型已经无法满足人们的需求。因此,人们提出了模糊信息系统。其中,每个属性值不再是一个值,而是一个模糊集,表示属于该属性值的程度。在传统的离散型信息系统中,同一属性下的属性值是互斥的。然而,模糊集信息系统的每个属性值只跟对象有关,同一属性下的各个属性值之间的互斥关系却没有揭示出来。本文在模糊集信息系统的基础上,提出了一种概率值模糊决策系统,对象在一个属性上属性值构成了一个概率分布。在这种情况下,每个属性不仅与对象有关,同时受到统一属性下其他属性值的影响和制约,从而刻画了同一属性下各个属性值之间的互斥关系。概率广泛应用于人们的学习和生活,概率的特性使得概率值模糊决策系统满足很多性质。粗糙集理论是一种有效刻画不确定性的数学工具,已经在多个领域得到广泛的应用。本文将概率值模糊决策系统和粗糙集相结合,定义了三种上下近似算子,并从理论上研究了它们之间的关系。在此基础上,提出了三种属性约简算法和基于模糊决策树的分类算法,并通过实验验证了算法的有效性。具体来说,本文的主要工作如下:·基于KL散度,定义了属性之间的相似性度量;·提出了三种上下近似算子,并研究了三种近似算子之间的关系。定义了精确度,粗糙度和近似精度等不确定性度量,并证明了他们的单调性;·基于概率值模糊决策系统,提出了新的条件熵的公式,并证明了其单调性。在新的条件熵和三种近似模型的基础上,提出了三种属性约简算法,通过实验验了算法的有效性;·提出了三种新的模糊决策树的构造算法,通过和现有的算法对比,证明了算法的有效性。