离群点预处理及检测算法研究

被引量 : 0次 | 上传用户:hhhanyin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测主要应用于数据清洗与数挖掘两个方面,其作用就是发现数据的“小众模式”,即数据集中显著不同于其它数据的对象。在现实中,一个人的噪音可能是另一个人的信号。在很多应用中,例外事件常常比普通事件更有趣、也更有研究价值,因此离群点数据的检测和分析是一项重要且有意义的研究工作。但现有的离群点检测算法仅能识别可疑数据,不能确定是否是“有意义”的离群点,离群点检测算法在高维数据挖掘过程中性能有所下降。因此本文针对这些问题进行了探讨和研究。首先,本文从离群点检测的现实意义、算法、应用领域等各个方面对离群点检测问题进行了综述,分析了现实数据存在的问题,总结了针对不同数据问题所采用的处理方法。针对当前离群点检测算法只能识别可疑数据,不能识别出是否是“有意义”的离群点这一缺陷,提出采用二次挖掘方法与模型法区分“噪声”与“有意义”离群点。其次,论文对离群点挖掘技术进行了介绍,总结了当前离群点挖掘技术:研究了基于近邻的离群点挖掘算法,对基于近邻的DB(p,D)-离群点挖掘算法,k-近邻算法(KNN)及LOF(Local Outlier Factor)算法的优缺点进行了比较:针对高维数据之间的距离尺度和区域密度不再具有直观的意义及算法挖掘的正确率下降等问题,本文采用基于奇异值分解的方法约减数据维度,实现高维数据到低维空间的映射,然后再用k-近邻法及LOF算法进行离群点的挖掘。然后,将基于奇异值预处理的离群点挖掘法与直接运用离群点挖掘算法进行离群点挖掘的检测率、误报率及时间代价进行比较,挖掘结果的正确率明显提高,误报率及时间代价相对较小。文中对二次挖掘法与模型法进行了仿真实验。最后实现了一个离群点挖掘系统,其中集成了DB(p,D)-离群点检测算法、基于密度的局部离群点因子检测算法、k-近邻的离群点检测算法、基于奇异值分解的数据预处理及离群点检测算法,并对离群点挖掘的结果运用平行坐标图进行合理性分析。
其他文献
20世纪50年代的开封,气候反常,自然灾害频发,再加上国民党统治时期的兵祸匪患所造成的遗留影响,致使疫病流行非常严重。疫病不仅对开封民众的生命健康构成了严重的威胁,还严
森林生态系统健康作为一个当前林业和生态保护的新的研究领域,虽然目前还存在争议,但是其可以为制定科学的森林保护对策提供科学依据,对提高森林可持续经营水平有重要的指导
目的分析一家系扩张型心肌病(DCM)合并心房静止与传导阻滞患者的临床与心电表现,探讨其可能的发病机制。方法对一DCM合并心房静止与传导阻滞家系进行调查,并分析体表心电图及
目的对住院病案首页离院方式的信息进行追踪干预,以利于提高医疗质量。方法从医院病案管理系统中采集研究信息,选取2013年1月1日-2018年12月31日的出院病案首页出院方式信息,
<正>学生姓名:黄飞亚指导教师:陈煊、沈瑶、姜敏、向辉所在年级:本科三年级作业时长:56课时总用地面积:1 63000m~2总建筑面积:290480m~2容积率:1.782绿地率:46.57%建筑密度:1
随着卫星导航产业的发展,电子导航产品近年在我国得到迅速普及,市场规模也逐年扩大,其中国产品牌因为国家的政策扶持和对外资的限制占据了绝大部分的市场份额。由于电子导航
目的:探讨临床药学学科的基本概念与学科体系构建,探索学科可持续发展需要关注的主要问题。方法:通过对我国药学学科发展,尤其是医院药学发展的分析,并参考国外临床药学学科
目的:促进中成药的合理应用。方法:对处方组成类似的几组常用中成药的功效进行比较,并进一步分析其配伍组成。结果:处方组成类似的中成药各自所治疗疾病的病因、病机是不同的
《四声通解》是十六世纪初朝鲜著名语言学家崔世珍编纂的韵书。本文在前人研究基础上,分析讨论了这本书的成书背景、作者、体例、俗音的声韵调系统。《四声通解》以《洪武正
目的 :以高效液相色谱法测定人血浆中5 -氟尿嘧啶的浓度。方法 :用硫酸铵作为蛋白沉淀剂 ,血浆样品用乙酸乙酯 -异丙醇(85∶15 ,V/V )提取 ,氮气吹干 ,残留物用流动相溶解后