论文部分内容阅读
粗糙集作为一种具有模拟人类认知推理过程中粒化和近似的特点,是处理含有不确定性、不一致性、模糊性等数据的有效数学工具。近年来,基于粗糙集的属性约简成为一个非常热门的研究方向,这是因为属性约简在机器学习、数据挖掘、模式识别等领域得到广泛的应用及学术界不断的关注。然而实际环境中数据信息的不确定性、不一致性、模糊性等因素导致属性约简的难度加大,从而限制粗糙集理论在相关领域的推广和大规模应用。本文在前人研究基础上对粗糙集理论及属性约简算法已有成果进行总结,并对协调信息系统的邻域粗糙集模型的属性约简和不协调信息系统分布约简以及不协调邻域粗糙集的分布属性约简的一些问题做了以下探索研究:首先,设计一种基于邻域粗糙集模型的优化的高效属性约简算法。基于经典粗糙集的属性约简和基于邻域粗糙集模型的属性约简有很大的不同,后者因为增加邻域概念导致许多针对经典粗糙集属性约简的方法不再适用于邻域粗糙集模型属性约简,而且基于邻域粗糙集模型的约简算法在计算样本的邻域时要花费大量的时间计算距离,这样约简效率相对于经典粗糙集属性约简大打折扣。如何在邻域粗糙集模型中通过减少样本比较次数、缩小搜索空间来快速计算样本的邻域成为设计邻域粗糙集模型属性约简算法的瓶颈。为了缩少求邻域时的搜索空间。本文首先对需要约简的数据集进行一次切片,使彼此相邻的对象聚集在一个分片中,通过理论证明我们可知某个分片中对象的邻域只包含自己本身和相邻两个分片中的对象,为此求分片中对象的邻域只需搜索本身所在分片及相邻的两个分片。由于搜索空间限制于三个分片中,故属性约简算法的时间效率有明显的提高。其次,提出一种快速不协调信息系统分布约简算法。相对于使用差别矩阵来进行不协调信息系统分布约简,本文的算法在时间效率上更具有优势。通常Rough集理论是以不可分辨关系为基础,通过引入上近似集和下近似集,在集合运算上定义的,这称为Rough集理论的代数观点。然而有些学者以信息论为基础来研究Rough理论,提出了Rough理论的信息论思想。为此以Rough理论的信息论观点来研究粗糙集的属性约简成为一种选择。本文正是根据代数观点和信息论观点的关系选择条件信息熵为属性选择准则,设计了基于hash分类的启发式后向贪心属性约简算法。最后,针对信息系统的属性约简算法可能同时面临不协调信息系统分布约简算法和邻域粗糙集模型属性约简的问题,如何解决此类问题成为必要。本文就此讨论不协调邻域粗糙集的分布属性约简的差别矩阵和基于条件信息熵的后向贪心约简算法。