【摘 要】
:
目前缺失数据的存在已经成为数据质量问题中无法避免的影响因素。各领域研究中经常遇到数据缺失问题,该问题不仅影响研究结果的精度,也给实验研究带来局限性,限制了后续工作的有效进行。因此在最近几年,随着大数据研究成为热点,针对缺失数据的处理方法也成为数据处理领域的一个热点话题,国外学者为此展开了许多研究并提出了许多至今影响深远的处理方法。随后国内学者也开始研究缺失数据处理方法,但大多数方法都是在国外研究得
论文部分内容阅读
目前缺失数据的存在已经成为数据质量问题中无法避免的影响因素。各领域研究中经常遇到数据缺失问题,该问题不仅影响研究结果的精度,也给实验研究带来局限性,限制了后续工作的有效进行。因此在最近几年,随着大数据研究成为热点,针对缺失数据的处理方法也成为数据处理领域的一个热点话题,国外学者为此展开了许多研究并提出了许多至今影响深远的处理方法。随后国内学者也开始研究缺失数据处理方法,但大多数方法都是在国外研究得出的方法上进行的改进和完善。随着各行各业数据量的井喷,传统的缺失数据处理方法已经难以适用大规模数据。常规的处理手段如简单删除法、均值填充等已经无法满足多领域研究需要。针对目前缺失数据处理领域存在这个问题,本文首先介绍了缺失数据处理的研究意义和国内外研究现状。然后系统地分析了造成数据缺失的原因,对缺失问题进行了分类。对近年来国内外常见的缺失数据处理方法进行了详细分析,同时总结了各类处理方法的优缺点、适用范围、效果评价指标。其中重点介绍了EM填充、聚类填充等填充方法。然而传统的缺失数据填充方法通常只考虑原数据集内部联系,且仅采用单一的数值型相似度度量方法对缺失数据进行填充,使得填充值容易被原数据集限制,失去自身原有特点,填充结果不客观。因此,提出一种新的概念—“共享知识”。基于共享知识构建缺失数据集与异源相似完整数据集的共享关系,并建立共享信息系统,通过新的相似度度量方法建立他们对象间的相似关系,从而用异源相似完整对象对缺失对象进行相似填充。本文从不同平台收集到两个相似的世界幸福指数相关数据集。以此进行仿真实验来证明本文所提出方法的有效性。实验结果表明,本文提出的共享相似度度量方法比传统的数值型相似度度量方法下的度量效果更好,且更适合现如今大规模数据的相似度度量。并且与其他传统填充算法相比,本文的方法对缺失值的填充精度值能够稳定的保持在0.85以上,均方根误差值控制在0.15之下,充分保留了填充值的客观性,填充效果更好。通过探讨传统方法,提出新的缺失数据处理思路,该思路为以后缺失数据处理领域提供了新的方向。同时根据结果显示本文的方法可以更好的应对不同领域的大规模数据缺失情况。
其他文献
目前国内陆基工厂化养殖模式得到大力推广和发展,智能机械化设备也在养殖任务中发挥重要的作用。水产养殖中,鱼粪、残饵及微生物菌群等物质会附着在池底和池壁上,影响水质导致病害发生,需要定期的予以清除。传统清洗方式需要人工手持板刷或者拖着水枪机四周环绕清刷,工作繁琐重复且池底易滑,也不符合节能环保的理念。本文的研究对象—鱼池清刷机器人主要用于养殖车间的鱼池池底污染物清理,解决了人工清洗存在的问题,清洁效率
在世界各国进军海洋的进程中,水下作业装备扮演着极其重要的角色,水下机器人作为目前普遍使用的海洋探测作业装置,在民用和军事两大领域的相关海洋活动中,发挥着不可替代的关键作用。水下机器人控制技术作为控制理论在水下作业工程装备方面的具体应用,对水下机器人尤其是自主水下机器人的发展具有重大影响和深远意义。自主水下机器人控制技术的研究方向主要涵盖构建控制系统体系结构、动力学建模与模型的合理简化及相关参数的优
在计算机视觉领域,关于深度学习的研究逐渐增多,其发展也日新月异,特别是在人的面部包括生物特征和表情识别、头部姿态估计、活体检测等领域的应用广泛。日前,在社会发展的需求和促进下,各式各样的计算机技术在不断地被发掘,其中,计算机视觉中的头部姿态估计研究已经成为该领域的一大热点。国内外众多的科学研究院、大学实验室、公司研究机构等陆续都在开展对头部姿态估计的研究,将深度学习应用于头部姿态估计算法,旨在提高
船舶在航行过程中船体表面会附着贝类和藤壶等海生物,船体表面附着物的存在会对航行产生不利的影响。经过研究表明,海生物附着在船体表面会增加船体表面粗糙度,增大船舶航行阻力,增加了运输时间和运输油耗,造成经济损失。目前,潜水员用清洗枪对水下船体表面进行清洗是主要的方式。潜水作业劳动强度大,安全性低,清洗成本高,效率低且受天气影响大。为了解决上述问题,可代替人工的清洗爬壁机器人成为了热门研究方向。清洗爬壁
本文主要研究混合图上最小-最大圈覆盖问题。依据不同的覆盖对象,具体分为两种情形:一是覆盖对象仅为弧的情形,二是覆盖对象既包含弧又包含边的情形。该类问题是计算机科学和运筹学中一个重要的组合优化问题,它和它的变形在诸如快递配送、垃圾回收、积雪清理等相关领域具有广泛应用。因此,对其进行科学研究具有重要的理论和实际价值。本文主要从近似算法的角度对其开展研究,针对两种情形,分别给出了较好的近似算法,具体内容
随着近年来人们对水产养殖的关注度增多,鱼类检测与识别对水产养殖业的环境监控、渔业发展等起到关键性作用。目前,水下目标识别技术已成为探索水产养殖业的重要部分,而对水产养殖浑浊水域鱼类的精确识别是渔民经济收益的保障。并随着行动摄像机和无人水下设备等水下记录设备的可及性提高,使得能够高效、安全地拍摄,而不存在通常人工数据收集时带来的后勤困难。然而,水下设备收集了大量需要手动处理的图像数据,对目标识别带来
深海区域占全球海洋面积的90%,超过一半的国际贸易都是通过海洋进行运输。浩瀚的海洋在促进人类文明、经济发展的同时,也留下了众多的人类遗址、遗迹和遗物。我国古代拥有辉煌的海上贸易历史,进行深海遗迹考古与发掘一方面可以推进我国先进海洋装备的研发与进步,另一方面也可以重现历史还原当时社会形态,对发展深海探测技术和传承发扬传统文化具有重要意义。为实现水下考古机器人近距离海底精细化目标检测,本论文以关键帧提
糖尿病视网膜病变(DR)是临床常见的眼病,是导致全球失明的主要原因之一。随着我国人民生活水平的提高,糖尿病视网膜病变的发病致盲率明显增高,其严重影响着患者的视力功能和生活质量。糖尿病黄斑水肿(DME)是导致糖尿病患者视力损害的常见原因。糖尿病黄斑水肿(DME)的早期发现和监测对于治疗糖尿病视网膜病变,预防患者视力损伤具有积极意义。光学相干断层扫描(OCT)是一种无创和无接触的成像方法,可提供视网膜
渔船监控系统(Vessel Monitoring System,VMS)是一种集渔船定位、网络通讯、地理信息、数据管理、电子信息显示等技术于一体的渔船综合应用系统。我国以具有自主知识产权的北斗导航系统为基础,构建了北斗渔船监控管理服务系统。目前,北斗VMS提供渔船报位经纬度、发报时间、速度、航向等信息的时间分辨率3min,空间分辨率10m,高精度的船位信息,可在渔船航迹识别、捕捞状态识别、作业区域
线性回归是一种通过对数据进行分析从而科学可靠地预测未来的方法,可以很好的协助企业或者机构更好的进行管理或者决策,而不是依靠经验和直觉等传统的方式。作为机器学习与数据挖掘领域当中最为经典的基础算法,线性回归中涉及到的线性计算在其它学习算法中也有着很重要的体现,比如逻辑回归、神经网络等。所以研究计算过程具有代表性的线性回归算法是非常有意义的。随着大数据时代的发展以及人们对线性回归目标模型性能要求的提升