论文部分内容阅读
粗糙集是一种十分重要的数据分析工具,它能够很好的处理不精确的、不一致的和有缺失的知识库。由于经典的粗糙集是严格的定义在等价关系的基础上,只能用来处理离散的符号型数据,当处理连续型数据时就需要对其进行相应的离散化操作,但是离散化处理有可能会造成重要信息的丢失并且不同的离散化方法也会对约简的结果产生不同的影响。而现实生活中又由于数据测量的误差、科学技术的限制以及对数据理解的误差等原因,使得获取的大量数据往往是不完备的、有缺失的,这就极大地限制了经典粗糙集对现实数据的发展方向。因此,如何有效的找出潜藏在知识库中的有价值的信息已成为当今大数据时代研究的重点课题。针对上面出现的问题,一系列的粗糙集扩展模型相继被提出。比如:基于容差关系、相似关系的粗糙集扩展模型能够很好地处理不完备的数据集,邻域粗糙集模型可以用来直接处理连续型数据集,从而避免了因对数据进行离散化而可能造成的重要信息的丢失。本文以邻域容差粗糙集模型为基础,做了以下几点研究:首先,在邻域容差粗糙集扩展模型的基础上重新定义了一个新的邻域容差粗糙熵函数,并根据该熵函数给出了邻域容差条件熵和属性重要度的定义,为后面的特征选择算法奠定了基础。其次,给出了一种计算邻域容差关系中阈值大小的方法。本文分析了固定阈值和单一阈值的弊端,结合标准差的意义,提出了新的阈值计算方法,并用阈值集合来代替单一阈值,进而使分类结果更精确。另外,基于邻域容差条件熵给出了一个新的特征选择算法(SFGFFSNNTC)。在算法中,我们利用邻域容差关系定义了关系矩阵,进而节约了算法的运行时间。另外,利用邻域容差条件熵定义了属性重要度,从而避免了因缺失值的存在而造成的属性依赖度不准确的缺陷。最后,利用UCI数据库的数据对本文特征选择算法进行检验,证明了这种改进算法的有效性。