论文部分内容阅读
在对实际应用领域进行知识发现的过程中,由于数据采集能力有限和数据存储介质损坏等未知情况,所获取用于挖掘的数据系统往往是不完备的,即存在缺失数据。因为这种数据的不完备性给用来进行挖掘的数据模型引入了噪声和不确定性,从而使得挖掘出的信息会出现矛盾和混乱的问题,这会严重影响知识发现中的数据挖掘过程和结果。粗糙集理论是由波兰科学家Z.Pawlak创立的一种处理数据模糊性和不确定性的数学理论工具,它在处理信息数据的过程中无需任何先验的领域专家知识,具有一定的客观性和通用性。因此,本文以粗糙集理论作为理论工具,研究它在数据预处理过程中解决数据缺失值问题中的应用,并最终提出了一个粗糙集理论和关联规则中频繁项集的联合处理模型。首先,论文介绍了目前不完备信息系统中填补缺失值的主要方法,并分析了各自的优缺点,尤其是在国内较受关注的基于粗糙集理论的ROUSTIDA算法和国外的ClosestFit算法。在此基础上提出了一种融合了粗糙集量化容差和属性约简知识的不完备信息系统处理算法RSF,该算法在描述缺失对象和备选填补对象之间的相似精度和算法运算复杂度上有明显改善。通过实验验证,RSF方法与ROUSTIDA算法相比具有更高的填补精度,比ClosestFit算法拥有更低的运算复杂度。其次,基于以往处理不完备信息系统算法中都忽略的备选填补对象在整个信息系统中的重要性问题。本文提出了一种用关联规则中频繁项集知识来对数据缺失值进行填补的方法,该方法简便且能提高缺失值的填补精度。由于该方法中无法完成所有缺失值填补的缺点,文中最后提出将其与RSF算法联合的处理模型FI-RSF,在该模型中先利用频繁项集填补法,对余下的未能处理的缺失值再使用RSF算法继续填补。最后,通过在UCI机器学习数据库选取数据集进行实验,验证了FI-RSF方法较RSF方法在缺失值预测精度上有所提高,且随着产生频繁项集的预设支持度降低,预测精度会提高。