基于LSTM的不完整时序数据填补方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:my_sunday_tongxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据缺失在数据的采集、传输以及存储过程中都可能产生,因此它是广泛存在且无法避免的。缺失值的存在给数据分析和挖掘等任务造成了困难,因为目前大多数数据分析和挖掘方法都无法直接处理不完整数据。时序数据是一种重要的数据形式,由于其内同时存在属性间和时间上的相关性,其建模也更为复杂。因此,时序数据的缺失值填补研究是一项重要的工作。现有填补方法常利用历史信息对缺失值估计,忽略了当前信息,本文则加强对当前信息的利用来提升填补效果。文中提出了两种填补方法:(1)基于时间和属性相关的残差LSTM填补法。本文在LSTM基础上设计了填补单元,以残差学习的方式结合了历史信息和当前时刻属性间相关信息,对网络输入中的缺失值进行处理。本文还在LSTM的输出间增加了短连接,用以增强网络对时序数据的学习能力。此外,在训练和估值过程中,本文分别采用many-to-many和many-to-one结构来进一步提升性能。所提方法可使用不完整数据进行训练,并可直接用于不完整时序数据的预测任务。(2)基于自联想LSTM的填补方法。该方法在上一种方法的基础上对LSTM单元进行改进,设计了自联想LSTM。自联想LSTM的输出是对当前输入的估计,因此其在产生估值时同时利用到了历史信息和当前信息。为了防止其被训练成恒等函数,其内网络分为几组。为了缩减参数,各组网络共享一组权重。在其基础上,本文为其增加了填补与短连接单元,并提出了基于自联想LSTM的填补方法。多个数据集上的实验结果验证了前一方法内部各机制的有效性,以及其在填补和预测上的优越性。实验还验证了自联想LSTM的有效性以及基于它的填补方法的有效性,相比前一种方法,填补的RMSE和MAE值平均下降了29.5%和29.1%。
其他文献
随着无线电力传输技术(Wireless Power Transfer,WPT)的出现,能量发射器和接收器之间的电力传输方式突破原有限制,由原先的有线方式逐渐过渡到无线方式进行,进而产生了无线充电传感器网络(Wireless Rechargeable Sensor Networks,WRSN)的新型传感器网络架构。目前传统的WRSN领域工作主要集中在最大化网络寿命、优化充电效率和优化充电质量方面,而
学位
多模态聚类的目的是通过挖掘并融合多个模态的一致性和互补性信息来完成数据分组,已经引发了多方面多角度的探索。例如引入神经网络解决了数据特征提取的问题和使用成对约束或自监督学习等方法来指导多模态聚类。与此同时,针对多模态数据中部分实例缺失的情况,不完全多模态聚类的课题也被广泛研究,得到快速发展。尽管多模态聚类研究已经取得很大的突破,但仍存在一些问题有待解决。本文从三个角度入手,对深度多模态聚类进行研究
学位
我国矿产资源丰富,由于矿产资源的掠夺性开采和环境保护长期滞后于经济发展,矿产资源不仅促进了国民经济的发展,也带来了一系列环境污染问题。铊和钼是矿区污水中两种典型的阳离子和阴离子污染物,在国内外许多地区已发生多起钼、铊超标造成环境污染事件,其去除技术已引起广泛研究。与传统除钼、铊方法相比,吸附法因其操作简单、低成本、效率高且吸附剂可循环再生等优点引起广泛关注。但关于对水中阴离子和阳离子重金属污染物均
学位
随着垃圾分类的强制执行,垃圾分类回收系统也日益完善,垃圾被运往填埋场或者焚烧厂的途中会在垃圾中转站被压缩而产生压滤液,这部分垃圾压滤液污染物浓度高,不能随意排放。目前传统的处理方法还存在弊端,如压滤液中高浓度的氨氮容易导致生物处理中的微生物失活;物化法只能作为垃圾渗滤液的预处理和深度处理方法;联合处理工艺复杂,成本高。压滤液的水质复杂,处理难度较大,在考虑处理工艺的有效性和稳定性的同时,还要兼顾处
学位
钢管束混凝土组合剪力墙是由方钢管和U型钢管焊接,并在钢管内浇筑混凝土而成的一种钢-混凝土组合剪力墙,作为结构的主要抗侧力构件,它不仅具有较高的承载能力和良好的抗震性能,而且能够实现模数化设计、工厂化生产和装配化施工。本文在试验的基础上,对钢管束混凝土组合剪力墙的力学性能及其影响因素进行了对比分析,提出了低周反复荷载作用的恢复力模型及模型参数,根据恢复力模型绘制了滞回曲线,并与试验曲线进行了校核分析
学位
钼(Mo)是一种难熔稀有金属,也是动植物必不可少的微量元素之一,其广泛应用于冶金、制造业、农业、航天、医疗等领域。随着钼矿的大量开采,开采过程产生的废水、废渣以及尾矿处理不当,导致钼矿周围的地下水、地表水以及土壤等污染极为严重。钼在水体中主要是以钼酸盐(Mo O42-)的形式存在,而目前去除水中钼酸盐的手段主要有:化学沉淀法、吸附法、离子交换法、人工湿地法以及混凝沉淀法等。电絮凝(Electroc
学位
随着5G的快速发展,移动边缘计算已经成为新的计算范式,它将传统云的计算资源从中心云迁移到网络边缘上,移动设备可以将计算任务卸载到边缘服务器上以满足低延迟需求的应用程序。但是这种新的范式在上述计算卸载过程中引起了许多挑战,比如如何进行动态放置服务来维护移动用户感应延迟,以及如何确定计算卸载任务的分割数量来优化移动用户体验质量等。基于上述挑战,本文提出了一个多用户多边缘服务器的计算卸载模型,该模型同时
学位
随着生物医学领域的不断发展,大量的学术科研成果以论文和文献的方式进行呈现和传播。因此,巨量的论文和文献形成了一片知识的海洋,亟待学者们进行发掘研究。生物医学实体关系抽取是利用自然语言处理相关技术,从生物医学文献中自动地抽取出生物医学命名实体以及实体之间存在的关系。这种抽取技术能够帮助领域内的研究学者高效的发现和学习相关知识,从而进一步推动生物医学领域的发展。本文的研究主题是“生物医学实体关系抽取”
学位
随着我国城市化的推进和产业结构的转型,越来越多的工业用地失去了原有的作用和功能,衰落工业厂区的更新改造逐渐成为城市建设的焦点。然而大量没有列入保护体系的旧工业厂区,在城市改造中不假思索地被“夷为平地”,本文希冀从“活力论”视角出发,改变以往“推土机”式更新模式,将旧工业厂区契入城市居民的日常生活,充分挖掘旧工业厂区的独特属性与活力的内涵,提出旧工业厂区的活力提升维度与构成要素,探索旧工业厂区的更新
学位
共识算法是维持区块链系统安全稳定运行的关键技术。作为应用最广泛的联盟链有交易量大、响应快速、参与方多、不可信和存在拜占庭故障等特点。高效率的RAFT无法在不可信的环境下容忍拜占庭故障,而可容错的PBFT无法满足联盟链对效率的需求。针对联盟链中大量数据同时共识的过程中既要高效又要可容错这两点难以兼顾的问题,本文提出一种高效且可拜占庭容错的共识转换算法。针对RAFT无法检测故障节点、判断故障类型导致的
学位