基于K-Means-CNN的采砂大数据清洗算法研究

来源 :华北水利水电大学 | 被引量 : 0次 | 上传用户:sgqeye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据质量是进行数据挖掘的关键问题,高质量的数据带来的信息准确、全面,有助于人们做出正确的判断及决策,因此,做好数据清洗,提高数据质量是非常重要的。目前,已有学者提出许多数据清洗方法,它们解决了大部分领域的数据清洗问题,但是这些数据清洗方法在对缺失值、异常值、重复值的处理上还存在很多不足之处,主要表现在算法自身存在缺陷及数据问题分类不精确方面。而且,在河道采砂方面,目前还没有有效的数据清洗方法。河道采砂活动日益频繁,在采砂过程中,会产生各种与采砂密切相关的数据,这些数据包含:业务数据、设备数据、传感器数据、人工数据等,其中,传感器采集的河道信息数据对分析采砂业务有很大帮助,而一些备份、残缺数据等属于冗余、垃圾数据,在对数据进行分析应用时,会出现决策误导问题,因此,对这些数据进行清洗可以充分分析挖掘数据,引导人们做出正确决策。大数据、深度学习等技术已经成了数据处理的主流方向。其中,河道采砂关乎大众民生,解决采砂问题迫在眉睫。本文对已有的数据清洗方法加以改进,提出了基于聚类及卷积神经网络的采砂大数据清洗方法。本文所做主要工作如下:第一,研究数据源,对河道采砂数据加以了解,研究其源数据存在的主要质量问题,根据数据源质量问题,进行具体的算法模型及结构设计,以及优化,保证可以对数据进行准确分类。第二,对大数据集如何进行分类进行研究。利用最小二乘法的K-Means聚类算法对含砂量数据集进行聚类处理,利用最小二乘法设定阈值,减小异常点对聚类效果的影响。然后将聚类后的数据集作为卷积神经网络的训练样本,进行模拟训练,得到网络模型,并对模型进行不断优化和调优,得到最佳训练效果。第三,在调好的数据清洗模型中输入实验数据,经过模型分类后,将输出结果与输入的实验数据作对比,计算其中的误差,不在误差范围内的可视为异常,再进行修正处理。第四,对实验结果进行比较和分析,通过模型在河道智慧采砂监管平台的应用,结果表明,K-Means聚类与卷积神经网络相结合的数据清洗算法能有效的对采砂大数据进行清洗,提高了采砂数据质量,对采砂工作提出有效建议。
其他文献
我们把聚合酶链反应技术应用于布氏菌的检测,探索了该PCR体系扩增的最佳反应条件。它对6种布氏菌纯化DNA均可扩增,同时还测定了PCR的敏感性和特异性。证实该方法最低可检测200个菌细胞。与布
<正> 杀鼠晶杀灭家鼠类效果较好,但对达乌尔黄鼠(Citcllusdauiuus简称黄鼠)的杀灭效果尚无报道,为此,笔者于1994年6月作了杀灭试验,现将结果报告如下。1 材料和方法1.1 材料1
分析了邢钢低压余热蒸汽应用的背景,对低压余热蒸汽的综合应用情况进行了介绍,该项目每年的经济效益为3528万元,取得了显著的经济效益和社会效益。
邢钢在生产含Al0.03%-0.06%铝镇静钢的实践中,通过控制精炼渣渣系、钢水搅拌和钢液钙处理等夹杂物控制技术,将Al2O3夹杂物变性为Ca/Al=0.9-1.3的低熔点钙铝酸盐夹杂物,改善了
产教融合实训基地是推动高职教育产教融合的重要载体,是提升学生实践能力的重要场所,是新时期高职院校人才培养的保障,是进一步实现办学与市场需求相匹配的重要纽带。实训基
介绍了石钢60tVD炉的主要参数、脱氧工艺,分析了氩气流量、真空脱氧时间、弱搅拌处理对VD炉脱氧的影响。
植物多样性及其区系组成研究是反映区域生态系统结构及其生态状况的重要手段之一。以神农架大九湖湿地为研究对象,分析了其植物物种组成、优势植物种群及植物区系。结果表明:
网络流量中大多数流量都是正常的,但经常会出现偏离正常范围的异常流量,主要由DDOS攻击、渗透攻击等恶意的网络行为引起,这些异常行为通常会导致网络质量下降,甚至网络直接瘫
儒家重要经典《孟子》,语言精工,逻辑严密,气势磅礴,说理透彻机智,感情充沛,具有鲜明的个性和独特的风格,显示了高超的论辩艺术。《孟子》的论辩技巧因势而变,具有居高临下,善于统观全
血栓闭塞性脉管炎属中医&#39;脱疸&#39;范畴,是一种中小动脉和静脉非化脓性炎症疾病。病变好发于下肢远端血管,病程进展缓慢。根据临床表现可分为三期:I期,局部缺血期;II期,