论文部分内容阅读
随着信息时代的来临,人类在各种领域中面临着越来越多的数据信息,与此同时,这些数据的规模还在以惊人的速度不断增长。因此,为了提高工作效率和生活质量,人们必须获取蕴藏在这些数据中的有价值信息。为了达到这个目的,人们开始致力于从数据库中挖掘知识的研究。然而,众所周知,数据库中往往存在冗余数据、缺失数据、不确定数据和不一致数据等诸多情况,这些数据成了发现知识的一大障碍。因此,在从数据库中挖掘知识之前必须对数据进行预处理。 本论文着重研究数据挖掘中的数据预处理技术,尤其是数据清洗技术,并实现了数据挖掘试验平台(Data Mining Laboratory, DMLab)的数据预处理模块的功能。 首先对数据预处理知识做了全面和详细的描述,介绍了数据预处理的研究背景、定义和主要的预处理技术研究现状等。然后对现有的数据预处理技术进行了深入的分析,涉及到数据清洗、数据选样、数据变换和数据归约等技术。之后重点对缺失值填充技术及各种填充算法进行了深入地研究和探讨,并提出了基于聚类技术的缺失值填充法。最后,在前面讨论的各种技术的基础上,实现了数据挖掘试验平台的数据预处理模块功能,主要包括数据清洗、数据选样、数据转换、数据归约等功能。 在对数据预处理技术进行的研究中,着重介绍了缺失值清洗的基本知识和方法,并探讨了当前缺失值清洗技术,客观地评价了它们的优缺点。本文对目前广泛应用的各种数据预处理技术进行了深入的研究,并在此基础上完成了DMLab系统中数据预处理模块的设计和实现,既根据系统需要实现了部分基础的预处理算法,又提出了如何应用聚类算法进行缺失值填充的新方法,并给出了在数据集上的试验结果及结论。 本文的主要创新点在于提出的基于聚类技术的缺失值填充算法。