时序数据流上的缺失值填补关键技术研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:pengxianwei1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的进步,数据已成为必不可少的基础性资源,但往往难以保证数据质量,数据缺失现象在真实数据集中广泛存在且难以避免,缺失值填补由此成为数据质量管理领域的研究热点之一。但目前大多数缺失值填补算法均针对静态数据提出,并不适用于具有实时性、动态性等特点的时序数据流。基于此,本文针对时序数据流给缺失值填补算法在时效性和准确性两方面带来的挑战,分别提出相应的填补算法。具体研究内容如下:(1)针对时序数据流填补时效的问题,提出基于独立模型的缺失值填补算法RIIM。RIIM同时考虑数据的稀疏性和异构性问题,结合近邻填补和回归填补的基本思想对缺失值进行有效填补。针对数据的动态实时性,提出高效的填补模型增量更新算法;并针对数据近邻查找时间代价高以及近邻个数难以确定的问题,提出最优近邻自适应周期性更新策略。最后基于真实数据集通过大量实验验证了算法的有效性。在Accu Weather上,RIIM相较于TCKM、SPRINT等在线缺失值填补算法,准确性小幅提高,在时效性上提高了约20%,显著减少了时间代价。(2)针对时序数据流填补精度的问题,提出基于VAE模型的多重缺失值填补算法MIVAE。MIVAE结合多重填补的基本思想对变分自编码器(VAE)模型进行改进,从数据隐变量的近似后验分布中进行多次随机采样,产生每个缺失值的多个估计值来反映缺失数据的不确定性。并且模型一旦训练完成即可应用至时序数据流,完成缺失值在线填补。通过在3个真实数据集上的大量实验表明,MIVAE的填补精度明显优于已有算法。相较于VAE模型准确性提高了约28%,相较于PMM算法准确性提高了约30%。
其他文献
随着科技的进步,计算机视觉技术日趋成熟,三维点云数据已成为场景理解和三维模型的重要来源,三维点云数据在无人驾驶、工业检测等领域的应用越来越广泛。点云语义划分要求对输入点云数据进行分类并添加语义标记,这是图像处理、三维建模和计算机视觉等领域中最为棘手的问题,也是当前的热点研究方向。传统的点云分割技术依靠手工设计实现,其操作过程复杂,且自动化和智能化程度不高,Point Net++是一种具有高自适应和
学位
<正>自2022年11月以来,火爆全网的ChatGPT被人们冠以“学习帮手”“工作顾问”“贴心秘书”“机器知识分子”“活百科全书”等头衔,它甚至比专家还“聪明”,用学富五车、才高八斗、满腹经纶都不足以描述它的“博学”。ChatGPT刚一上线,就受到人们热捧,仅两个月用户就突破了一亿。它神通广大,似乎什么都会做,当然,也就无法排除它会“干坏事”。对此,
期刊
根据漳州厦蓉高速改扩建工程A5标大龙头山隧道洞渣自产机制砂的实际应用情况,结合设计、规范及福建省标准化指南对原材料各项指标的要求,介绍机制砂的生产工艺,阐述机制砂的技术参数和在混凝土生产中的应用。该项目机制砂生产质量良好,生产过程顺利,运用效果显著,对今后具备自产条件的项目具有一定的指导意义。
期刊
针对中井煤矿选煤厂粗精煤泥截粗回收系统存在的问题,采用叠层高频振动细筛替代原有弧形筛进行粗精煤泥回收,并在入料管安装上对原设计进行了改进。改造对提高粗精煤泥回收率和精煤产率有显著效果,对改善浮选效果、提高尾煤泥灰分、降低尾煤泥产率等起到积极作用,并获得较好的经济效益。
期刊
审美意境的生发建构在诸多艺术因素相互格义与会通的辩证美学之上,审美意境并非特定的艺术形象或典型特征本身,而是创作者带着情景交融、物我合一的情感感兴所创作出的艺术形象与它所引发的“超以象外”的艺术联想或幻想,从而触发观者去追踪或联想“象外之象”,并生发至更高层境的“象外之意”的艺术美学境界。
期刊
由于化学产业的发展,全国危险化学品行业规模急剧增长,获得了巨大经济利润收益的同时,各类安全生产事故频发,给广大民众的生活生命财产造成了巨大威胁。因此提高行业安全监管水平,是危险化学品企业新发展阶段的迫切需要。XJ市危险化学品监督监管机构设置、软硬件水平都存在一定差距,危险化学品企业作为监管对象在生产规模,管理手段等方面也各有不同,因此对XJ市危险化学品安全监管进行评价研究,存在着一定的现实意义。文
学位
<正>劳动创造了人本身,也创造了人的美好生活与心灵富足。——题记时值初夏,暑气日盛,万物的情绪也随气温日益高涨……农家的油菜地正加速着能量转化,全力孕育着这灶台飘香的六月精灵。曾经的“儿童急走追黄蝶,飞入菜花无处寻”的满目花海,如今已变成一株株根茎健硕、腰杆笔直、籽荚饱满的成熟油菜,等待着颗粒归仓。天色微明,一声清亮的劳动号子在村头炸响。
期刊
<正> 曹某,女,22岁。1991年11月30日会诊。高热12天。患者12天前刚从东北来到内地,随即出现高热达40℃,在当地卫生室治疗5天,高热不退。又去县医院就诊,经各种理化检查,疑诊为肝胆管结石合并胆系感染,靜脉滴注氨苄青霉素、激素等,口服利胆片治疗,体温仍在40℃左右,建议请中医治疗,于11月27日晚转我院急诊室。立即给
期刊
离群点检测是数据挖掘中一项重要而富有挑战性的任务,它在故障检测、入侵检测、健康监测中的紧急检测等方面都有着广泛的应用。随着新兴技术的快速发展,现实生活中产生了海量的高维数据。针对数据维度增加的问题,传统的离群点检测算法的效率大大降低,无法有效的检测出高维数据中的离群点。因此,如何使用有效的降维方法,将高维离群点问题转换成低维离群点问题,并设计合理算法处理转换后的离群点查询,已成为目前高维空间中离群
学位
<正> 万××,男,学生。1993年2月7日初诊。其母代述:患儿于10日前发烧,体温38.8℃,伴右大腿痛,在当地卫生院治疗,不但病情未减,而且疼痛加重,体温升高,行走困难。次日至区人民医院诊治,经 X 线摄片,未见异常;血检:血红蛋白96g/L,白细胞12×10?/L,中性0.76,淋巴0.24,诊为右髂窝脓肿,收院治疗。入院后经激素及各种大
期刊