论文部分内容阅读
数据作为文明发展的载体之一,有着至关重要的地位。纵观文明的发展史可以发现,准确的信息和数据甚至能决定国家的兴盛与衰败。随着5G通信落地、IPv6协议推广和区块链技术发展,如今,我们正处于新一轮的科技信息技术革命中。在物联网中,每天数以亿计传感器设备都会采集到海量的数据,不仅如此,这些数据量还在以指数形式增长。在海量的传感器采集的原始数据中,存在一部分冗余、冲突、异常或缺失的数据,这些数据为脏数据。脏数据只有经过合理的清洗后,才能完整准确的表达原始数据,更好的服务于数据管理者,支撑其决策与分析,发挥数据真正的价值。本文通过建立数据清洗框架,设计数据清洗方法清洗了感知数据中的四类脏数据。通过不同清洗模型精度的对比,得到在温度、湿度、二氧化碳和光强数据集中,数据经过本文设计的框架清洗,应用时空相关性模型填补后精度最优。在研究过程中,本文主要设计了以下五个方面的内容。第一,数据清洗框架的设计。根据数据分析的需求和数据应用场景,设计了适用于感知数据的数据清洗框架,包括清洗需求、采集数据、清洗数据和精度评价。第二,数据清洗方法和具体流程设计。根据感知数据特点,设计了针对四类脏数据的清洗方法,并由清洗后的结果设计了依次是冗余清洗、冲突清洗、异常清洗和缺失清洗的数据清洗流程。第三,异常清洗方法设计。根据概率论中正态分布的特点,判断每一组感知数据集中的偏差大于两倍σ的小概率数据,对其进行删除的方式清洗。第四,数据时空相关性设计。根据感知数据的时序特征,建立了滑动时间模型;根据感知数据的两种空间特征,建立了多站点和相邻节点的空间模型。综合时间与空间模型设计了ST-SDC算法,加权平均方法建立了时空相关性模型。第五,清洗评价方法设计。根据本文建立的时空相关性模型,对清洗流程中最后的缺失数据进行填补。对比计算了常用的时间ARMA模型、空间VAR模型和单独的时间或空间模型等填补数据集的RMSE精度值。为了完成基于时空相关性的感知数据清洗研究,本文首先描述了物联网时空相关性数据清洗的研究背景和现状,其次对数据采集、时空相关性和数据清洗的理论进行介绍,随后设计上述五个方面的核心内容,最后根据实验结果分析和研究过程中的感悟,归纳总结了研究成果的核心内容和创新,并总结了研究中的不足和缺陷,根据不足对未来的研究提出了展望。