时序数据中错列属性值的检测与修复技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:alabo353
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的降临伴随着海量数据的出现,同时使得数据成为人们生产生活中不可或缺的一部分。时间序列数据又是海量数据中的非常常见的一类,其在工业及物联网领域广泛存在,同样蕴含着巨大价值。但不幸的是,属性值错列的现象却频频发生在时序数据采集的过程当中,严重地影响着数据的质量。例如:在气象数据采集的过程中,某一时刻2的浓度值被传输到了2的属性域内,而2的浓度值被传输到了2的属性域内,即两个属性的属性值发生了错列。并且,此问题在现有的研究中鲜有出现。本文在这样的背景下对现有的属性值错列问题进行了重新定义,提出了一种基于交换数组的修复方式。并在这基础上提出了一种针对属性值错列的检测及修复算法FHISR。该算法利用基于直方图的快速识别技术对待修复的候选集合进行大规模剪枝,并通过基于交换的精准修复算法对属性值错列错误进行完美修复。通过实验验证,该算法比现有方法拥有更优的检测及修复效果,并且比现有的针对属性值错列的检测及修复算法拥有着更快的时间性能。此外,本文还针对多种错误共存的场景,提出了一种联合修复策略。该策略根据一个基于精度的代价模型以及基于最大熵的顺序选择策略来选择算法库中已有的数据清洗算法。本文还针对流数据场景,提出了一种针对属性值错列错误的实时检测及修复算法TDi LOF。该算法利用时序数据具有时间戳的特点,为每个新到来的数据点添加了一个时间指示器,以此来及时删除过时的数据。并且,该算法通过总结阶段的TADS算法,尽可能少的使用内存来保存历史数据点的密度及形状。该算法在检测阶段使用ODA算法利用参考点和潜在的辅助数据点近似地计算LOF值,极大地提高了检测阶段的准确率。通过实验验证TDi LOF算法在可接受的时间性能以及有限内存的限制下,具有极高的检测准确率。此外,对于流数据场景下属性值错列的修复问题,提出了一种根据属性值错列类型来区分处理的高效修复算法OSR。该算法通过一个临时空间来存储一定数量的离群值,并通过时间、密度等属性来区分属性值错列的类型并以此来加速修复属性值错列错误。通过实验验证,OSR算法极大地提高了算法的执行效率并拥有极低的修复误差。
其他文献
当前电子商务飞速地发展,在线交易规模逐步扩大,尤其是在疫情的冲击下,实体店铺的发展遇到更大阻力,但是与此同时,却给了电商巨大的发展空间。但是在其发展的过程中,也不断地暴露着诸多问题:第一是信息篡改的问题,用户信息全部由第三方平台保存,用户对交易参与方信任评价的信息存在被篡改的风险;第二是信息泄露问题,尽管用户可以进行匿名评价,但这种基于第三方的平台只能实现面向公众的信息隐藏,而非真正的匿名;第三是
学位
多视图立体视觉(Multi-view Stereo,MVS)是从一组已知相机参数的图像中,以立体匹配为主要线索来恢复场景的密集三维表示,从而构建三维场景,而多视图深度估计是多视图立体视觉中的核心。MVS作为计算机视觉的基本问题已经研究了几十年,广泛应用于测绘、影视、自动驾驶等方面。近年来深度学习在多视图三维重建中取得良好效果,成为视觉三维重建领域的研究热点。基于深度学习的多视图立体视觉方法与传统方
学位
本文以偃师东山白云岩矿山智慧化生产为背景研究砂石生产过程中的粒度检测问题。砂石粒度是砂石产品质量的重要信息,不同粒径的砂石具有不同的用途,粒度一致性强的骨料具有更好的品质和更高的经济价值,因此对砂石粒度进行在线检测是实现砂石品控的前提。传统的粒度检测采用人工筛分,存在人为误差大控制精度低等问题,不满足实时性要求。本文设计实现了基于端到端的砂石粒度检测系统,通过工业相机采集传送带上的砂石图像,自动检
学位
降水预报是天气预报的核心业务,其预报准确性对于农业、交通等领域具有深远影响。目前降水预报估计主要依赖于雷达观测的云团回波情况,因此降水预报的核心步骤为雷达回波外推,即基于过去一段时间的雷达回波数据预报未来云团的运动及密度。但是,云团运动涉及复杂的大气物理规律,为外推带来极大挑战。近年来,深度学习在气象预报领域,基于循环一致神经网络(Recurrent Neural Network,RNN)的深度模
学位
HITS算法是流行的网页排序算法,然而随着互联网中数据量不断激增,在排序结果中该算法一方面存在偏重旧网页问题,另一方面存在页面排序质量问题,因此许多学者对算法做出了改进。针对偏重旧网页问题,也就是最终查询排名靠前的常常是在互联网中存在较长时间的页面。从时间维度考虑,由于页面的发布日期格式不规范,时间参数获取困难,所以本文考虑了在周期内爬虫爬取到网页出现的次数T,将时间次数T根据牛顿冷却公式给出时间
学位
近年来,区块链技术受到了全球学术界和工业界的广泛关注。区块链具有去中心化、匿名性、难以篡改等特点。比特币作为区块链技术应用的先驱代表,在数字货币应用、支付和货币流通等方面,发挥着重要的作用。以太坊对于智能合约的引入,使得区块链从单一虚拟币体系转变成为了合约体系,拓宽了区块链的应用范围,让区块链不再仅仅局限于支付领域,更是在医疗保健、金融、物联网等领域的应用价值得到了极大地提高。伴随着智能合约数量的
学位
随着技术进步和消费者对大屏手机需求的增加,在手机设备有限的空间下提供更大尺寸的屏幕(即更高的屏占比)成为近年来的热点问题。一方面,水滴屏、挖孔屏等方案通过异形屏减少前置相机的空间占用,但其显示区域不完整,导致视觉效果较差,且需要系统、软件对异形屏进行显示适配;另一方面,折叠屏、弹出式前置相机、翻转式前置相机等方案通过不同的机械结构实现了完整的显示区域,然而其机械结构空间占用较大且较易损坏。因而,屏
学位
推荐算法是互联网最热门的研究领域之一,协同过滤是推荐算法子领域之一,具有需要的数据量少,适用性强等诸多特点,广泛应用于互联网上电影、商品、广告和POI等诸多内容的推荐中。本文在考察调研了现有推荐模型的基础之上,以提升协同过滤任务召回率等指标为目的,通过分析用户-物品数据集的特性以及用户-物品关系网络中的节点的异构性,搭建了能够学习用户对物品显示反馈以及有效捕捉不同节点之间高阶关系以及协同信号的图神
学位
如今,我国互联网行业发展迅猛,在此背景下,电子商务逐渐崛起,2021年天猫商城在“双十一”大型促销活动中已经采用“两波”预售模式,交易额突破5000亿元大关。预售使电商企业在电子商务背景下获得更高利润,但是存在信息不对称,市场需求不确定,定价决策不清晰等问题,这对电子商务的稳定发展产生了很大的阻碍。目前,如何把握市场需求,合理定价、吸引更多消费者购买产品成为当前电子商务预售模式研究的热点。因此,本
学位
深度学习技术在计算机视觉和自然语言处理领域获得了迅猛发展,作为融合了计算机视觉和自然语言处理两大领域的图像描述任务也因此取得了巨大的进步。现阶段,采用的结构框架一般都基于编码器-解码器结构,编码器用于提取图像特征,生成图像特征向量,解码器通过将图像特征作为输入解码生成与图像相对应的自然语言描述。相关研究人员在图像描述任务编码器-解码器结构的基础之上对编码器和解码器的结构等进行了全方位的改进,近几年
学位