论文部分内容阅读
粗糙集理论是一种用于处理不完备和不确定性问题的新型数学工具,能够对知识进行分类并且不需要信息系统之外的任何先验知识,所以在数据挖掘和数据库知识发现领域有着广泛的应用。面向含有缺失、未知数据的不完备信息系统,扩充经典粗糙集理论,形成多种扩展模型以及知识获取方法,有着极其重要的理论和现实意义。一切事物都是发展变化的,信息系统同样也在动态更新,伴随着对象的新增和退出,系统的属性约简也发生了变化,所以需要动态修改属性约简。因此,将不完备信息系统作为研究对象,进行动态的属性约简研究,有着重要的理论意义。实际生活中的数据集往往是共享的,通常被多个用户共同使用,每个用户按照个人应用需求或兴趣进行着数据挖掘。所以我们需要寻求一种恰当的方式来描述用户需求或兴趣,属性序正恰好满足这样的需求,可以通过它来体现不同用户的不同需要。但在知识获取的过程中,由于涉及用户隐私安全问题等原因而无法采集数据或者数据在整理、存储的过程中丢失,导致我们面临的通常是一个含有模糊的、不精确知识的不完备信息系统。所以,如何在不完备信息系统中挖掘出用户感兴趣的知识,是当前数据挖掘领域面临的一个重要问题。结合以上两点,本文利用属性序,围绕着不完备信息系统的动态约简进行研究。针对不完备信息系统,使用限制相容关系对粗糙集模型进行扩展,给出了新的信息熵函数及属性重要性,形成属性序,以此来体现用户的需求和兴趣。针对信息系统数据规模庞大的问题,融合分解思想,将海量数据进行分治处理,提出了一种基于属性序的不完备信息系统的属性约简算法。由于现实中的信息系统不断动态更新,所以利用属性序,在不完备信息系统中进行动态约简研究,给出一种不完备信息系统的增量式属性约简算法。此外由于现有的动态约简大多集中在增量式的属性约简,然而,对于不完备信息系统的减少式属性约简还很不成熟,所以,本文进一步在不完备信息系统中进行减少式属性约简进行研究,分四种情况分析减少的对象,给出了一种不完备信息系统的减少式属性约简算法。