基于立体感知的智慧水务大数据清洗算法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zhuyi9021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据在人类生活中占据着十分重要的地位,而水务数据由于多变量、数据种类繁杂、相关性强等问题在采集出现脏数据时变得难以处理,给水务行业进行决策性分析带来了严峻的挑战,因此对水务行业数据进行数据清洗势在必行。利用数据挖掘技术来进行数据清洗属于数据挖掘领域的前沿问题,近年来,随着机器学习和统计学习学术方向上的进步,在各领域中应用数据清洗技术得到了较大进展,但这些方法在水务数据空间、时间、数值特征上的清洗方法依然有待提高和突破。本文在水务数据空间、时间特征属性的基础上,以空间、时间异常值检测算法为切入点,进而研究基于立体感知的智慧水务大数据清洗算法。主要工作如下:(1)基于空间特性的异常值算法研究针对水务数据空间特征的业务属性和对象属性以及多变量特点,本文提出了利用KNN求出各点的临近函数点,再利用流域作为权值调整下的比较函数和适合多变量的马氏距离作为阈值函数,对水务数据中空间特征属性进行异常值检测。实验结果验证了本算法在水务数据异常值检测中良好的准确性和有效性,为进一步研究基于立体感知的智慧水务大数据清洗模型奠定了基础。(2)基于时间特性的异常值算法研究针对水务数据时间序列特征和多变量特点,本文提出了利用FCM聚类方法和两种模糊积分方法对时间序列进行降维,将三种方法进行横向对比,找出泛化能力较好的针对水务数据的降维模型,通过改进的隐马尔科夫模型将时间序列数据设置为可见的状态序列,应用维特比算法来预测最可能的隐藏状态序列(正常或异常)进行异常值检测,能有效的提升异常值检测的准确性,为进一步研究基于立体感知的智慧水务大数据清洗模型奠定了基础。(3)基于立体感知的智慧水务大数据清洗算法研究在水务数据空间与时间特性异常值检测研究的基础上,加上应用改进的TwoStep聚类算法的通用数值属性异常值检测方法与利用改进的多层感知器的人工神经网络空缺值填补方法,提出了一种基于立体感知的智慧水务大数据清洗模型。首先,对需要清洗的水务数据进行数据预处理,接着根据数据中的属性特征分别利用通用异常值检测算法、空间异常值检测算法和时间异常值检测算法进行异常值检测,然后对异常值检测完数据中的空缺值进行填补,进而得到干净的水务数据。该模型根据水务数据特点、水务脏数据特征和数据清洗流程设计,能够有效的对水务领域中出现的脏数据进行清洗。实验结果显示,基于立体感知的智慧水务大数据清洗模型异常值检测具有良好的准确性和有效性,空缺值填补效果也具有良好的准确性和泛化能力,说明本文方法在数据清洗中的可行性和有效性。
其他文献
综合客运枢纽地区集成了多种交通方式,各种交通方式设施设备的合理布置直接影响着枢纽集疏运效率。在各种方式中,正确认识行人流和机动车流的相互关系,有效处理交叉干扰,将对提高枢纽集散效率具有重要的理论和实际意义。然而,目前国内外尚缺乏对枢纽地区人车干扰机理的系统理论,缺乏人车交互设施设备配置的相关评估方法和工具。针对这一问题,本文对综合客运枢纽地区人车干扰的交互机理展开研究,并运用微观仿真的方法,评估枢
早期的任务分配模型主要受启发于社会性昆虫和动物的集群行为,其中多数属于探索性模型,旨在揭示某个特定假设条件下群体中个体状态改变的规律和性质。随着演化博弈论的不断发展,其应用可以延伸到任务分配的研究领域,将描述群体策略演化的框架用于对任务分配现象的抽象建模,并且可以借助演化博弈论的思想解释群体中分工合作行为的涌现。群体中的个体通过各自执行特定的任务使得在群体层面达到分工合作的效果,可以被看作是一种特
聚合物分离膜在当代膜分离技术领域中具有非常重要的地位,然而膜污染严重制约了其在水处理、生物医学等领域的应用。探索聚合物分离膜的新型改性方法,对膜表面进行功能化设计
生物材料表界面的构建通常采用共价修饰的方法,虽然这种改性的方法能够赋予材料表面丰富的化学基团和生物功能,但不免也会存在诸多缺点。例如,修饰过程繁琐,涉及复杂化学合成,反应过程不可控,对材料基底具有选择性,因此在一定程度上限制了该方法的应用范围。此外,传统生物材料表界面的构建方法,原料难以全部参与表界面的反应,不环保,成本较高。本文创新地利用聚环糊精(PCD)和单宁酸(TA)的邻苯三酚的主客体作用以
上周本刊报道了《廊坊银行直销银行P2P化》,廊坊银行直销银行外包给互联网金融公司中融金(北京)科技有限公司(以下简称“中融金”)来运营。在进一步调查过程中,北京商报记者注意到,
报纸
流通效率是反映产业竞争力的核心指标,其概念综合反映了企业在经济发展上的节奏和价值实现的速度。鉴于不同企业涉及领域不同,企业类型多、数量规模大,在经济管理方面存在较
随着物联网和传感器技术的发展,现实生活中的大量时序数据,例如股票走势数据、气象观测数据和个人医疗数据等,被监测并记录下来。挖掘时序数据中的隐含信息并对时序数据进行分析具有重大的现实意义,比如股票价格分析和预测、天气预报以及未来健康状况预测等。然而,由于采集设备的不稳定性或者被干扰等原因,采集到的时序数据往往是不完整的,而数据的缺失部分则阻碍了对时序数据的深入分析。因此,缺失值的处理对于后续时序数据
目的研究对疤痕子宫阴道分娩产妇实施四位一体产前护理的效果。方法选择本院2017年1月—2018年4月中的80例疤痕子宫阴道分娩产妇进行研究,其中40例产妇接受常规产前指导,另外
课题第三次研讨论证会在上海举行该课题将对语文课程改革产生积极影响
目的探讨血清甲状腺激素在冠心病、慢性心力衰竭患者发病机制中的作用。方法用免疫化学发光法测定50例冠心病患者、53例慢性心力衰竭患者血清中的甲状腺激素,并以同期健康体