基于Hadoop的工业大数据清洗方法研究

来源 :齐鲁工业大学 | 被引量 : 4次 | 上传用户:houyangpeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年,随着工业以及科学技术的快速发展,工业大数据的来源越来越多样化,而且呈指数级的趋势增长。对于企业而言,想要从这些增长迅猛且复杂的数据中得到有用的高质量数据,就必须对这些数据进行清洗。目前,数据清洗主要包括三方面:重复数据清洗,缺失数据清洗和异常数据清洗。对于重复数据以及缺失数据的清洗,现研究已经比较成熟。而异常数据的清洗还依然处于初级阶段,尤其是在工业领域,由于受数据来源多样性、网络设备以及环境的复杂性等影响,异常数据成为了工业数据清洗中面临的一个比较突出的问题。所以,本文主要针对工业大数据中异常数据的清洗方法进行了研究。在现有数据清洗方法研究的基础上,针对工业大数据的特点,提出并设计了一种基于Hadoop的分布式数据清洗方法,该方法主要分为五个环节,分别为数据源加载、数据预处理、特征选择、异常数据识别处理以及结果检验等,其中特征选择和异常数据识别处理是分布式数据清洗方法的核心环节。针对这两个核心环节,本论文进一步的做了深入的研究。具体研究内容如下:首先,在现有Logsf特征选择算法的研究基础上,针对其不足进行了改进,主要是结合梯度下降算法对Logsf算法的特征权重值进行了优化,接着利用MapReduce的计算优势,对改进后的算法进行了并行化实现。通过实验验证了改进Logsf特征选择算法的可行性,有效剔除了不相关的特征数据,达到了预期的降维效果。然后对基于K-means的异常数据清洗算法也做了深入的研究,主要是针对K-means聚类算法在中心点以及K取值方面的不足做了进一步的优化改进,本文以Canopy算法作为K-means算法的预处理,避免了中心点以及K取值的盲目性,在通过Canopy算法确定中心点以及K值时,充分的利用了“最小最大原则”的思想。同时,还利用加权的方式对欧氏距离这种样本间相似度的衡量公式做了优化。并且同样利用MapReduce对改进后的K-means算法做了并行化处理。通过实验验证了改进后算法达到了预期的效果,不仅提高了其准确性,还有效的降低了时间的运行。最后,搭建实验环境,并在Hadoop平台上实现了分布式数据清洗方法,通过实验表明,分布式数据清洗方法不仅提高了异常数据清洗的查全率和可扩展性,还达到了企业对数据质量的要求,在一定程度上有效的降低了生产成本。
其他文献
2009年2月19日上午,广东地产米酒行业迎来意义深远的盛事,全国白酒标准化技术委员会豉香型白酒分技术委员会成立大会暨第一届一次委员大会在佛山市太吉酒厂召开。中国轻工业
期刊
通过对比20例顽固性周围性面瘫患者针刺睛明穴前后及1个疗程前后患者眼部症状的变化,发现针刺睛明穴不论是即时效应还是远期疗效都得到肯定,该穴能改善顽固性面瘫患者的眼部
中国有三大平原。最大的东北平原又分为三江平原和松嫩平原及辽河平原。《明史.地理志》载“:三万卫西有大清河,东有小清河,流合焉,入辽河……”。辽河是辽宁的母亲河。辽宁以
介绍了啤酒生产过程中影响酵母的生存活性和生理活性的诸多因素,导致酵母死亡、自溶,给啤酒风味、胶体稳定性带来危害及对这些影响因素的解决措施。
慢性便秘是一种常见的消化性顽疾,虽大多数为功能性病变,现代治疗方法多种多样,但疗效欠佳,依然严重影响患者的生活质量及身心健康;中医学对治疗慢性便秘有着丰富的理论及临
利用筛选出的耐酸酒精酵母进行酒精发酵实验,用酒精废液代替清水配料,最佳发酵条件为:温度为30~33℃,酒母接种量为10%,发酵时间为64h,pH为自然,料水比1∶3。
由于不同的原因,多年来制曲只停留在粗放式管理上,没有一套行之有效的方法。在长期的生产实践中作者就如何做好大曲这个问题,总结出了一套自己的方法。作者把它概括为制曲"三
吴世政,青海省人民医院党委书记、院长,享受国务院政府特殊津贴,青海省自然科学与工程学科带头人,青海省医药卫生领域人才“小高地”领军人物,卫生部及总后卫生部高原病防治
探讨了我国股市"规模效应"的存在与否及其原因.通过回顾文献,概括了国际学术界对于成熟股票市场"规模效应"的证明和各种解释.综述国内学者不同时期、不同样本所做的实证研究,
当前,随着社会对技能人才和高素质劳动者的迫切需要,职业教育办学规模逐年扩大,学生数量增加。作为中职学校的班主任,应该从重塑学生的自信心,热爱每一个学生,爱字当头,严格