论文部分内容阅读
随着信息技术的不断发展,数据总量迅速膨胀变大,且超过传统数据库系统驾驭数据的能力,人们对这类数据赋予了新的术语——大数据。伴随着云时代的到来,大数据引起了人们广泛的关注,如何有效的对大数据进行挖掘和运用已成为各个领域面临的新挑战。在数据挖掘领域对大数据进行“加工”,也成为数据挖掘技术发展的一个必然趋势。粒计算作为人工智能领域的一个新理论和新方法,它是研究大数据挖掘和复杂问题求解的一个有力工具。目前,粒计算已被广泛应用在机器学习和数据挖掘等领域。粒计算的主要模型有:粗糙集模型、模糊集模型、商空间模型和云模型。粗糙集模型是粒计算的主要模型之一,能够有效的处理不精确、不一致、不完备的信息与知识。然而,大部分粗糙集方法都是针对静态数据模型提出的,如何对增量式数据、海量数据、动态数据或多源数据进行分析处理,一直是数据挖掘研究领域的一个热点,也是一个难点。在并行约简提出前,用来处理增量式数据、海量数据、动态数据的粗糙集方法主要有:动态约简,多决策表约简。邓大勇提出的并行约简理论为数据挖掘领域注入了新的血液,提供了一个新的研究方向。它将粗糙集理论从单个信息表或单个决策表推广到多个,它的思想也更符合人类解决问题的思维习惯。并行约简理论充分体现了粒计算的思想,本文在不同粒度层次上探讨了不同的并行约简算法。本文的主要工作如下:(1)建立了F-粗糙集模型,并该模型下的重新定义了并行约简。F-粗糙集模型的目的是为并行约简建立粗糙集理论基础。它是关于信息系统簇或者决策系统簇的粗糙集模型,也是第一个能够适应增量式数据、海量数据、动态数据和多源数据的粗糙集模型,适合研究事物的动态变化。(2)提出了代数论意义下的F-属性重要度和F-简化属性重要度。两种属性重要度都定义在决策子系统簇这个粒度层次。F-属性重要度统一了单个决策系统和多个决策子系统的属性重要度的定义。当决策子系统簇中只有一个元素时,F-属性重要度就是单个决策系统中的属性重要度。F-简化属性重要度则简化了F-属性重要度的计算,在计算时,不需要计算决策子系统簇的正域变化,只需要判断每个子表正域是否有变化。(3)提出了与两种属性重要度相对应的代数论并行约简算法。与基于属性重要度矩阵的代数论并行约简算法进行了对比分析,本文提出的算法在时间复杂度、空间复杂度、约简长度、时间效率、分类准确率、动态时间效率等方面都有所提高,尤其是基于F-简化属性重要度的并行约简算法在时间效率上有着显著的提高。(4)定义了信息论意义下的F-属性重要度。该定义同样也涵盖了单个决策系统到多个决策子系统的属性重要度定义。通过沿用代数论意义下的并行约简算法框架,提出了基于F-属性重要度的信息论并行约简。(5)提出了三种基于决策子系统簇作分类和决策的策略。首次在粗糙集领域将分类和决策问题拓展到决策子系统簇上。本文提出的三种分类和决策策略的思想均源自统计学和机器学习中一些经典理论,为利用粗糙集方法进行分类和决策的研究提供了新的启迪。