论文部分内容阅读
近年,随着工业以及科学技术的快速发展,工业大数据的来源越来越多样化,而且呈指数级的趋势增长。对于企业而言,想要从这些增长迅猛且复杂的数据中得到有用的高质量数据,就必须对这些数据进行清洗。目前,数据清洗主要包括三方面:重复数据清洗,缺失数据清洗和异常数据清洗。对于重复数据以及缺失数据的清洗,现研究已经比较成熟。而异常数据的清洗还依然处于初级阶段,尤其是在工业领域,由于受数据来源多样性、网络设备以及环境的复杂性等影响,异常数据成为了工业数据清洗中面临的一个比较突出的问题。所以,本文主要针对工业大数据中异常数据的清洗方法进行了研究。在现有数据清洗方法研究的基础上,针对工业大数据的特点,提出并设计了一种基于Hadoop的分布式数据清洗方法,该方法主要分为五个环节,分别为数据源加载、数据预处理、特征选择、异常数据识别处理以及结果检验等,其中特征选择和异常数据识别处理是分布式数据清洗方法的核心环节。针对这两个核心环节,本论文进一步的做了深入的研究。具体研究内容如下:首先,在现有Logsf特征选择算法的研究基础上,针对其不足进行了改进,主要是结合梯度下降算法对Logsf算法的特征权重值进行了优化,接着利用MapReduce的计算优势,对改进后的算法进行了并行化实现。通过实验验证了改进Logsf特征选择算法的可行性,有效剔除了不相关的特征数据,达到了预期的降维效果。然后对基于K-means的异常数据清洗算法也做了深入的研究,主要是针对K-means聚类算法在中心点以及K取值方面的不足做了进一步的优化改进,本文以Canopy算法作为K-means算法的预处理,避免了中心点以及K取值的盲目性,在通过Canopy算法确定中心点以及K值时,充分的利用了“最小最大原则”的思想。同时,还利用加权的方式对欧氏距离这种样本间相似度的衡量公式做了优化。并且同样利用MapReduce对改进后的K-means算法做了并行化处理。通过实验验证了改进后算法达到了预期的效果,不仅提高了其准确性,还有效的降低了时间的运行。最后,搭建实验环境,并在Hadoop平台上实现了分布式数据清洗方法,通过实验表明,分布式数据清洗方法不仅提高了异常数据清洗的查全率和可扩展性,还达到了企业对数据质量的要求,在一定程度上有效的降低了生产成本。