论文部分内容阅读
多源信息系统常常被用于表示来自多个信息源的复杂数据.随着大数据时代的来临,如何融合多源复杂数据并度量其不确定性,以及如何从来源众多的数据中寻找一个紧凑的条件属性子集成为粗糙集理论领域最重要的问题之一.通过结合证据理论,概率论和信息熵理论,本文旨在解决多源信息系统中的信息融合,并描述其数值特征.粗糙集理论,由Pawlak于1982年提出,是一种有效的处理模糊和不确定性知识的数学工具,被广泛的应用于机器学习,模式识别,人工智能和数据挖掘等领域.证据理论、信息论和粗糙集理论之间有着密切的联系,都是处理智能系统中信息融合,不确定性度量和属性约简的重要理论依据.多粒度粗糙集理论提供了乐观和悲观多粒度融合函数,分别运用合取与析取算子聚合由不同二元关系诱导出的多粒度结构,然而在解决实际问题时,这两种融合策略太松弛或太苛刻.二级融合算法通过粒度距离将多粒度结构划分为不同族群,后用析取与合取算子对族群内和族群间粒结构进行融合,但该算法没有充分考虑到每个粒结构的权重与分布.为此,本文提出如下创新性成果:(1)通过介绍多粒度粗糙集与证据理论关系,深入探讨多粒度粗糙集的本质与不足.(2)在多源信息系统中,定义新的多粒度粗糙近似算子与相应多源粗糙近似算子,提出新的概率分布与基本概率指派,进而探讨多源粗糙近似与证据理论之间的关系,并建立多粒度粗糙近似质量与证据理论之间的关系.(3)基于信度函数,讨论多粒度粗糙近似中的多源属性约简,并给出相应贪婪算法,分别用以计算多粒度粗糙近似的多源属性约简.最后,将上述结论推广至多源覆盖信息系统中.(4)给出属性集关于对象的权重,并结合第三章中概率测度,构造新的条件概率,进而提出变精度粗糙集,并且探讨该粗糙集与多粒度粗糙集之间的关系.结合Shannon信息熵和条件概率,分别提出基于等价关系或覆盖的Shannon熵算法,用以度量数据集的分类不确定程度.(5)基于辨识矩阵和分布函数,讨论变精度粗糙集的属性约简问题.最后,将上述结论推广至多源覆盖信息系统中.全文中用若干实例对上述讨论和算法一一进行了展示.本文的研究成果将有助于融合多源不确定性信息及其粒计算.