论文部分内容阅读
随着信息技术的发展,各个领域获取的数据量巨大且形式纷繁杂乱,对数据分析提出了新的要求,如何从大数据中挖掘和提取有效的知识是目前研究的热点之一。粗糙集理论可以有效的刻画知识的不确定度,是一种处理不精确,不一致,不完整等不完备信息的数学工具,得益于粗糙集理论的数学基础成熟,不需要先验知识,而且与处理其他不确定性问题的理论有很强的互补性(特别是模糊理论),在数据分析和知识发现领域有着广泛的应用。区间值是不确定数据的一个有效表示,在现实生活中大量存在,如一段时间内的温度采样结果、水质监测结果等往往以区间值的形式呈现,但是由于信息的丢失、遗漏、测量误差、数据噪声以及传输介质的故障等原因而造成数据的不完备在所难免。不完备区间值信息系统兼具不完整和不精确的特点,将粗糙集模型拓展到不完备区间值信息,会在一定程度上有助于全面地认识数据和发现知识。在实际生活中,由于不同需求和基础条件,模型的选取和数据的处理不尽相同,客观和主观角度均需要考量,于是,进行动态的知识发现和数据分析尤为重要。本文主要针对于不完备区间值信息系统,以不确定度量为研究目的,结合粗糙集理论,构建了一个新的模型,主要成果如下:(1)从集合和概率角度出发,研究了完备区间值信息系统中的二元关系,并拓展到不完备区间值信息系统,建立了相容相似关系,实现了区间值信息系统中完备和不完备的相容性。基于相容关系,构建了扩展的粗糙集模型,实验验证了不确定度量指标的合理性。(2)从距离角度出发,通过对不完备区间值信息系统的分析,研究不同角度下的相似关系,提出了弱相似关系的概念,证明了弱相似存在的合理性。基于弱相似关系,构建了扩展的粗糙集模型,实验验证了不确定度量指标的合理性。(3)在基于不完备区间值信息系统中弱相似关系的粗糙集模型中,通过分析信息系统,提出了一种自适应求解相容度学习算法,该算法充分利用了信息系统本身所隐含的知识,为相容度的获取提供了另外一种思路,使粗糙集模型有更强的自适应能力。