基于重分类的伪装缺失值检测方法研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:stwl1976
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据应用快速发展的今日,伪装缺失值等脏数据已成为数据分析的一大障碍,不仅会误导我们的工作行为,还可能会造成巨大的经济损失。因此,减少大数据中潜藏的伪装缺失值给数据分析带来的严重影响,伪装缺失值的检测工作正变得越来越重要。由于数据集中存在一些经常使用且在数据范围内随机分布的有效值,不容易被检测到,导致传统的检测算法检测效果不够理想。基于伪装缺失值检测效果不够理想的问题,本文提出了一种基于重分类的伪装缺失值检测方法,对伪装缺失值重新分类后再进行检测,主要研究内容如下:(1)提出了基于重分类的伪装缺失值检测框架。首先,对伪装缺失值进行重新分类,分为低频率的伪装缺失值和高频率的伪装缺失值两类。然后,按照一定的执行顺序,先执行基于Filter-KMeans的伪装缺失值检测算法对低频率的伪装缺失值进行检测,后执行基于MCMC方法的区间控制伪装缺失值检测算法对高频率的伪装缺失值进行检测。(2)针对数据中低频率的伪装缺失值的检测问题,本文采用基于Filter-KMeans的伪装缺失值检测算法进行检测。该算法主要从解决初始参数对聚类效果的影响角度出发,采用轮廓系数法和伯努利大数定律确定K值和数据点出现的概率,选取出现概率较高的前K个数据点作为数据对象点,然后分别求出其它数据点到这些所选取的数据对象点的距离及加权平均距离,并以加权平均距离控制成簇遍历。此外,在成簇遍历过程中,增加过滤操作,避免了一个数据点参与多个数据对象点的成簇遍历,对查全率和查准率的不良影响,从而提高检测效果。(3)针对数据中高频率的伪装缺失值的检测问题,本文采用基于MCMC方法的区间控制伪装缺失值检测算法进行检测。该算法主要从参数角度出发,采用Metropolis-Hastings算法对参数进行采样,然后,采用基于正态分布的一元离群点检测算法选取控制区间,并结合置信区间进行优化,避免了控制区间范围过大,对查全率和查准率的不良影响,从而提高检测效果。实验结果表明,本文的算法针对不同类别的伪装缺失值,在查准率、查全率和F1-Measure三个指标上均取得较好的效果,验证了本文的算法具有一定可行性,对数据分析工作具有一定的积极意义。
其他文献
癌症是威胁人类健康的重要因素之一,这类疾病治疗困难又极易复发,给患者和社会造成了巨大的负担。同时,随着高通量测序的发展以及二代测序的普及,生物医学的发展也步入了大数据的时代。众多癌症公共数据库的建立并开放获取,使得以大规模基因表达数据为基础的肿瘤生物信息学研究迅速发展。本文以基因表达数据为基础,对癌症进展阶段分类及泛癌样本分型的相关技术展开研究,主要研究内容和研究成果如下:(1)针对癌症进展阶段分
学位
近年来,智能机器人、无人驾驶等技术的飞速发展在引领产业变革的同时对环境感知技术提出了新的挑战。无人驾驶技术在交通管制、物流运输等场景中具有普遍的应用价值。但无人驾驶能够稳定、安全行驶的前提是能够获得目标在三维空间内的朝向、尺寸、三维中心点等信息,激光雷达能够高效的获取三维世界中深度信息,从而达到无人驾驶系统实时性要求,但激光雷达造价高昂,很难实现量产。因此提出一些基于视觉的三维目标检测算法,但仅通
学位
作为模型的降维表示,中轴因其具有良好的性能被广泛应用于工业领域。随着中轴应用的不断拓展,工业领域对于中轴的标准也越来越高,因此,许多学者针对模型的中轴生成方法进行了研究,本文在研究现有国内外中轴生成方法的基础之上,提出了基于双法线跟踪的模型中轴生成方法,该方法的具体研究如下:(1)现有中轴生成方法主要基于近似中轴的思想,采用经过中轴近似得到的结果来作为模型中轴,使得生成的中轴质量不是很高。针对这一
学位
就我国目前企业发展来讲,国有企业不断趋向于市场化。就全面预算管理来讲,我国的全面预算管理正处于刚刚起步阶段。还并没有设定一套完善的预算管理体系。目前我国的企业管理模式有很多种,但是经过不断的对管理模式优化,衍生出新型的全面预算管理模式。全面预算管理模式作为我国的核心运行模式,他为企业现代化发展起到了一定的作用,所以,我国的国有企业全面预算管理不但能够高效的优化企业内部管理制度,还能有效提高管理水平
会议
目标跟踪是计算机视觉的一个极具挑战性课题,有着重要的研究意义。现阶段目标跟踪算法对于快速运动弱目标的跟踪效果不佳,快速运动弱目标主要表现为目标与背景的对比度低且在快速运动场景下目标与背景不断发生变化,难以捕捉到全局信息,使得模板污染变大,导致跟踪失败。针对上述问题本文提出了一种时空信息连续多特征融合孪生网络跟踪算法,能有效地解决上述问题并表现出良好的性能。本文具体工作如下:首先,通过对公开数据集进
学位
预算约束下如何分配广告印象是RTB竞拍的主要研究问题之一。通过对广告印象的合理分配可以让广告获得良好的营销效果,进而使交易平台和需求方平台获得更高的收益。传统的分配方式站在交易平台的角度通过“价高者得”进行分配,这使得分配策略永远固定在最高出价的需求方身上。在复杂且规模大的RTB拍卖环境中,这种方法会导致需求方在前期过度消耗预算,从而影响需求方乃至交易平台的最终利益。同时,从算法的角度考虑,由于环
学位
水下机器人在进行水下作业时,遇到复杂水下环境或检测目标具有保护色的情况下,很难仅利用普通RGB图像通过传统目标检测技术检测到目标。而高光谱图像技术利用了光谱探测技术,在成像时每个空间像元都经过了色散,使得图像可以获取到数百个通过连续光谱覆盖而形成的窄波段,包含了有关目标物的丰富光谱特征,充分结合了空间域信息与光谱域信息,使其在后续的图像处理与检测时能够起到更好的效果。因此,在一些传统目标检测技术检
学位
随着我国经济的持续发展和城市人口的持续增多,人们对城市交通出行的需求也在持续增长,城市的交通问题日益严重。短时公交客流预测可以有效地帮助公共交通系统进行调度管理,帮助乘客提前做好出行规划,减少公共交通的运营成本,缓解出行压力。采用合适的模型算法对短时公交客流进行准确的预测显得极为重要。论文分析并总结一些国内外学者面向交通客流预测的相关研究文献。针对传统的单一网络模型和部分组合模型预测精度不够稳定,
学位
知识图谱已成为机器学习、数据挖掘和人工智能应用中许多任务的关键资源。典型的知识图谱通常是一个多关系有向图,由一组关系三元组(头实体、关系、尾实体)组成,其中关系表示这两个实体之间的关系。在过去的几十年里,在构建大规模知识图谱方面取得了巨大的进展,然而,它们大多是协同或半自动构建的,往往存在着不完整性和稀疏性,仍然需要进行知识图谱补全。知识表示学习是通过机器学习等方法将知识图谱中的实体和关系蕴含的语
学位
水下图像是海洋信息的重要载体。然而,水下场景的特定物理和化学特性条件的严重影响往往造成了水下图像的能量损失,这带来了比在地面成像系统更难克服的问题。即使一个干净的水下图像可以也存在不同的像质退化。如果遇到偏色、低亮度、水质浑浊等不利因素,情况会更严重,这将导致图像变得更加模糊,水下物体的可见性显著减弱。不借助附加图像或者先验信息,单张水下图像的恢复或增强工作是一项极具挑战性的视觉任务。围绕这一视觉
学位