基于并行计算的水质时间序列数据清洗平台的研究与实现

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:gxmvsgxm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智慧水务的发展,水质数据量也日益增大。同时由于水质数据的变量多样性和变量间的强相关性,使得水质脏数据的处理难度陡然上升,严重影响了水务行业的决策性分析,因此水质数据清洗已然成为了水务信息研究中的核心内容。近年来,随着机器学习方法的广泛应用,利用其解决数据清洗问题的技术也取得了较大的进展,为水质数据清洗提供了许多可参考的解决方案。基于当前水质数据的分布特点和用户对数据清洗的需求,本文在水质数据时间特征属性的基础上,以模型的运行效率作为切入点,进而研究基于并行计算的水质时间序列数据清洗平台的构建方法,实现先进编程技术架构和数据清洗流程的有机结合,为水务决策性分析提供有效的数据质量保障。本文全面介绍了水质数据清洗平台构建和应用过程的相关技术,主要包含以下几方面工作:首先,通过深入了解数据清洗的基本流程及现状,现有的水质数据特点和机器学习方法的应用现状等问题,本文将水质时间序列的清洗流程总结为三个主要阶段,分别是数据预处理、异常值检测和空缺值填补阶段。在数据预处理阶段处理不符合常识的明显错误的水质数据,在异常值检测阶段处理不符合水质时间序列正态分布特征的数据,在空缺值填补阶段利用统计学方法和机器学习方法预测缺失数据和异常数据。接着,针对水质数据缺失的不同情况,在空缺值填补阶段分别采用了平均值预测,支持向量回归(Support Vector Regression,SVR)算法预测和长短期记忆网络(Long-Short Term Memory,LSTM)算法预测。针对算法核心参数难以确定的问题设计了粒子群优化(Particle Swarm Optimization,PSO)算法改进的SVR(PSO-SVR)和PSO改进的LSTM(PSO-LSTM),并且采用非线性递减惯性权重策略对PSO的迭代过程进行了优化。同时使用了多种常用的算法模型进行对比实验,通过评价指标对比,本文所采用的模型预测效果均优于其他模型,进一步说明了本文所选用模型的有效性和准确性。然后,针对大数据量和算法的高复杂度导致数据预测模型运行时间过长的问题,本文使用微服务架构作为并行计算解决方案,实现了PSO算法的并行化。进一步提升了整个清洗流程的效率以及平台的易用性和扩展性。通过对比并行优化前后的预测模型运行时间,验证了本文所构建的模型的高效性。最后,本文以前后端分离的Web开发技术为基础。使用Java编程技术、Python编程技术以及My SQL数据库设计理论来构建平台的后端服务。Java Script+HTML+CSS的技术栈构建平台的前端页面,同时结合水质时间序列的清洗流程建立数据清洗平台。并详细说明了平台总体功能和平台中各个模块的主要功能,同时详细展示了主要页面。本文所建立的数据清洗平台依托于《水体污染控制与治理科技重大专项》这一国家级项目,能够高效地对水质时间序列进行全面地数据清洗工作,有效地为水务决策分析提供帮助。
其他文献
计算机辅助乳腺肿块检测是乳腺癌的计算机辅助早期诊断中的关键步骤。传统的计算机辅助乳腺肿块检测方法在检测准确率和效率方面都存在很大的改进空间。基于内容的图像检索的
多机器人编队系统是在单个机器人的基础上,通过机器人之间的通信和控制算法的设计,实现机器人之间的信息共享,达到期望的编队系统。虽然单个机器人的性能不断的提高,但是面对
本文论述了寒冷自然低温环境对工程塑料和橡胶材料的影响,该类材料在25℃、-35℃等的性能;并说明寒冷自然环境暴露对材料的影响.结果表明低温使材料变硬、变脆,拉伸强度和弯
研究目的:胰腺癌的恶性度高,且进展迅速,临床病例中极易发生转移,临床统计中仅有20%左右的患者在就诊时有手术机会,其他的患者则大多只能接受姑息化疗,胰腺癌的五年生存期仅5%左右。因此胰腺癌是目前最难以治疗的恶性肿瘤之一,且目前尚无任何有效治疗可以延长患者的的生存期和改善预后。近年来分子靶向治疗在某些肿瘤治疗中取得了一定的进步,在本课题中探究了miR-25-3p对胰腺癌细胞的作用和胰腺癌细胞对iRG
松辽盆地发育巨厚的白垩纪地层,其中沙河子组发育于松辽盆地构造演化中的同裂谷阶段,属于火山活动间歇期,由于其特殊的沉积环境,成为盆地深部重要的有利生油层和储层。本文研
引汉济渭工程是一项省境内跨流域调水工程,被称为陕西省“南水北调工程”。引汉济渭工程立足解决陕西省水资源分布不均匀而导致的全省经济发展受限问题,对从根本上缓解西安、宝鸡、咸阳、渭南、杨凌五城的工业用水和城市发展问题具有重大战略意义。引汉济渭二期工程为输配水工程,南干线西起黄池沟配水枢纽,沿秦岭北麓自西向东至灞河水厂,线路全长103.5km;北干线从黄池沟配水枢纽向北经周至、兴平至泾阳北关水厂,路线全
随着社会的不断发展,化石能源的大量开采和广泛使用带来气候变暖、水源污染等系列严重的环境问题。而氢能具有高燃烧值、绿色清洁等优势引起了广泛的关注。目前通过电解水制备氢气被认为理想途径之一。其中,析氢反应(HER)和析氧反应(OER)是水电解反应中两个重要的半反应过程。在寻找新型能源转换装置的同时,高效的能源储存装置也同样重要。甲醇燃料电池作为清洁高效储能装置的代表之一,在各个方面都显示出了突出的贡献
聚类作为一种无监督学习方法,依据样本点之间的相似程度进行分组来学习数据集的模式。由于样本点没有标签,所以只能依据样本点之间的距离或密度这种基础信息来确定数据集的聚类中心[1,2,3],簇数[4]或关联矩阵。在此基础上构造不同的目标函数,并寻求该目标函数的最优解[5-7]。本文我们提出一种基于超平面划分的聚类算法,该方法建立的基础是假设一个簇可以被划分为若干个子簇,同时这些子簇中的样本点位于局部线性
跟踪控制算法具有广泛的应用背景。目前工业控制中仍普遍采用PID控制方法,但其往往无法满足人们对系统性能的要求。另一方面,虽然国内外学者提出了许多优秀的控制算法,但这些
风荷载是太阳能光伏支架设计中最主要的荷载之一,目前对于屋顶上的太阳能光伏支架取值尚没有统一的标准。通过刚性模型测压风洞试验的方法,对不同女儿墙高度下平屋面阵列太阳