论文部分内容阅读
随着互联网的快速发展,数据呈多态化变化趋势,产生了很多不完备不一致数据,这对数据分类和预测等处理带来了巨大的阻碍。对不完备不一致数据的填补一直以来都是数据挖掘领域里数据预处理研究的一个难点问题,合理地填补数据能为数据的分类处理提供更多的有用信息。高维数据的处理过程也相对较复杂,有效地使用属性约简能把高维数据降到低维数据,从而可以极大地提高处理数据的速度和减少分析不完备不一致数据的难度。目前粗糙集理论和相关的算法能较好地解决数据填补这个问题,但对不完备不一致数据的填补算法和属性约简算法的研究还存在诸多问题。因此,本文主要研究对不完备不一致数据运用信息增益和不一致度结合的填补算法,并提出基于粒化模型的属性约简算法,再对基于粒化模型的属性约简算法进行改进。本文完成的主要工作如下:(1)针对属性约简中计算等价类和容差类的计算耗时问题,运用容差关系和上下近似的性质建立一种快速访问并计算每个对象的等价类和容差类的粒化模型,该模型能够有效地缩短属性约简时间,并在粒化模型的基础上提出一种属性约简算法。对不完备不一致数据建立粒化模型后计算得到每个属性的信息增益值,并由小到大排序形成一个待约简的属性集合。用关于属性的一致度作为属性约简算法的启发函数,计算并比较每个对象关于属性的一致度大小,然后进行属性约简操作,再用实验验证了属性约简算法具有较好的性能,最后还研究了不一致度比例与属性约简个数之间的关系。(2)通过结合信息增益和不一致度的特点,提出一种针对不完备不一致数据的填补算法,它能最大限度地还原初始数据的特征,还可以达到较好的填补效果,并能保持较高的分类准确率。然后对不完备不一致数据提出一种信息增益和不一致度结合的属性约简算法,实验结果表明本文提出的属性约简算法具有较好的属性约简效果和扩展性,对完备一致数据和不完备不一致数据都能进行属性约简。综上所述,本文针对不完备不一致数据提出了粒化模型并在此基础上实现的属性约简算法能够有效缩短属性约简时间,再针对不完备不一致数据提出的信息增益和不一致度结合的填补算法和属性约简算法,可以最大限度地还原初始数据的特征,且进行了有效的属性约简,并用实验结果证明了算法的有效性。