论文部分内容阅读
随着互联网和物联网等技术的发展,各种应用系统都积累了海量、不同类型的复杂数据,而这些数据随着时间的推进急剧地增加而形成海量、混合动态且具有较大不确定性的大数据.企业的核心竞争力已经逐渐转移到大数据中价值的挖掘中来.但是,人们发现在这种混合动态的大数据中实时准确地发现稀疏存在的有价值知识越来越困难.因此,如何实时有效地从这样海量、动态、多类型混合数据中完成知识发现已经成为机器学习和数据挖掘等领域的研究热点.目前,粗糙集理论和模糊集理论是知识发现的两大重要数学工具.粗糙集理论将知识理解为对数据的划分,每一划分块即一个概念,其主要思想就是利用知识库中已知的知识去描述模糊或不确定的知识.模糊集理论是一种用隶属度这一精确的数学语言对模糊性进行描述的方法,应用模糊集理论来解决问题具有较强的鲁棒性.粗糙集理论的优势在于它不需要任何的先验信息,而模糊集理论处理不确定性问题时常常需要一些附加信息.单纯地使用粗糙集理论未必能完全有效地描述不精确或不确定性问题,将两者有机地融合以便发挥各自的优势,就会得到更具表达力的粗糙模型,即粗糙模糊集模型和模糊粗糙集模型.本文将混合信息系统分为数值型决策信息系统、符号型模糊决策系统和一般混合信息系统三种类型,选择适合处理混合数据的粗糙模糊集和模糊粗糙集方法并进行必要的扩展,结合增量更新技术,研究了混合数据类型的动态信息系统的知识更新问题.本文的研究工作包含以下四个方面:首先,本文讨论符号型模糊决策系统中对象变化情形下的增量更新近似集方法.其中,先讨论对象集变化时引起粗糙模糊集等价关系变化的机理;分析对象集动态变化时粗糙模糊集模型中模糊概念的近似集增量变化性质,并研究相应的近似集增量更新算法.然后,针对一般混合信息系统,首先设计可以同时处理符号、数值、布尔、集值、区间值、缺失值、文本、图像、视频、音频、传感信号等多种数据类型的两种混合距离度量公式;并结合高斯核函数设计高斯核模糊等价关系的模糊粒化方法,进而设计基于混合距离的高斯核模糊粗糙集模型;讨论对象集增删情形下模糊等价关系以及模糊粒化规律;结合基于混合距离的高斯核模糊粗糙集模型研究对象集动态变化条件下概念上、下近似集的增量更新方法.此外,讨论属性集变化时一般混合信息系统中模糊等价关系以及模糊粒化规律;结合基于混合距离的高斯核模糊粗糙集模型提出了属性集动态变化条件下概念上、下近似集的增量更新方法;根据这些更新方法应用于前向贪心搜索策略的特征提取中提出基于模糊粗糙集的增量特征提取原理和算法.最后,讨论一般性混合信息中属性值变化情形下的增量近似集更新方法.其中,先讨论系统中条件属性值变化时等价类变化规律;研究条件属性值动态变化时模糊集粗糙模型中概念的近似集增量更新性质并提出相应的更新算法;其次,讨论了概念的分层粒化原理以及决策属性值粗化细化与概念分层粒化的关系;分析决策属性值粗化细化时引起的决策类划分变化规律;研究决策属性值动态变化时模糊集粗糙模型中概念的近似集增量变化性质;提出相应的近似集增量更新算法.在上述研究工作中均采用UCI数据集进行了实验评测,实验结果验证了增量算法的有效性和相对于非增量算法的优越性.