基于距离的离群点检测算法分析与研究

被引量 : 0次 | 上传用户:spflying2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测作为数据挖掘领域研究的重要组成部分,致力于发掘庞大信息集合中所占比例极小的一部分特殊数据。这小部分特殊数据由于具有明显的不同于其他数据的离群特征,往往蕴含着真实却又出乎意料的现实意义或知识价值。因此,离群点检测被广泛的应用于入侵检测、信用欺诈、故障诊断等领域。为了更好的检测到信息集合中的离群信息,研究人员设计开发了许多不同的离群点检测算法,其中基于距离的离群点检测算法可以灵活的制定距离函数、有效的获得离群点信息,具有重大的理论意义与实用价值。然而目前的研究在实际应用过程中还存在着一些不足,如初始参数的选取需要通过经验获取,算法在高维、大数据集上的运行效率等。本文针对现有的基于距离的离群点检测算法的不足,围绕无监督初始参数的获取与提高算法的运行效率等关键问题进行了研究与实验,提出了基于粗粒度单元的离群点检测算法,通过使用粗粒度单元对数据集进行剪枝,从而提升基于距离的离群点检测的效率;同时结合KNN算法思想给出了一种距离参数的参考值的获得算法,从而简化了获得有效利群信息的收敛过程。主要研究成果包括:①研究了数据挖掘的现状与过程、离群点检测的意义,全面分析了现有的离群点检测算法,对比了常用的离群点检测算法的优缺点、适用范围。②介绍了数据预处理技术,重点对数据清理、数据集成与变换、数据规约的方法进行了分析;同时对降维技术进行了概述,从特征选择与特征变换两个方面介绍了现有的理论和方法。③在经典的基于单元的离群点检测算法基础上,提出了一种改进的基于粗粒度单元的离群点挖掘算法,通过扩大单元粒度来减少算法的时间与空间复杂度,并通过实验验证了其优于原算法。④结合KNN算法思想,提出了一种应用于基于距离的离群点检测的距离参数参考值的选取算法,通过计算获得较为合理的距离参数初始值,从而降低离群点检测过程中的人工监督程度以及知识发现的收敛过程。论文的实验使用了UCI的Abalone与EL Nino两个数据集,分别比较了不同的距离、比例、维度、数据规模等参数对本文提出的基于粗粒度单元的离群点检测算法的性能和有效性的影响,同时比较了其与经典单元算法之间的性能差异。结果表明本文提出的基于粗粒度单元的离群点检测算法能够有效的检测出数据集中的离群点,较经典的基于单元离群点检测算法有着更好的性能。
其他文献
通过大量资料对长江三峡库区的地震、地质灾害现状与蓄水后可能出现的潜在危险性作了深入的分析与客观的评估,从科学对策到技术措施对减轻这些灾害的可能性作了较详细的论述。
桥梁支座是桥梁工程中重要的结构部件,它连接桥梁的上部结构与下部结构,并将来自桥梁上部结构的力均匀的传递给下部结构,使桥梁上下部分之间原本的刚性接触转变为柔性接触。
目的:对比吸入型糖皮质激素联合辅舒良及顺尔宁与吸入型糖皮质激素联合辅舒良治疗哮喘合并中重度持续性过敏性鼻炎的临床疗效。方法:将2011年1月至2013年1月广州医科大学第一
目的探讨妊娠期妇女骨代谢指标和骨密度(BMD)的变化及其相关性。方法选取2014年4月至2018年2月在浙江医院产科门诊建卡并进行常规产前检查的妊娠妇女300例进行前瞻性研究,其
本文对20世纪90年代以来国际证券资金大幅流入事件进行识别并对其影响因素展开研究。基于54个经济体1990年第一季度至2018年第一季度的季度数据,本文首先对54个国家国际证券
目的:研究环氧化酶-2(COX-2)/前列腺素(PGE2)在肿瘤坏死因子-α(TNF-α)刺激黏液生成过程中的作用。方法:体外培养的BEAS-2B气道上皮细胞系施以TNF-α刺激,以选择性及非选择
随着改革开放的不断深入,发展国家经济节奏的不断加快,经济发展所带来的负面问题也日趋明显化,环境问题已经成为国家经济发展不可忽视的因素之一。进入二十一世纪以来,环境保
随着社会的发展和科技的进步,大气污染日益严重,其中尤以粉尘颗粒污染最为常见,静电除尘作为一种有效的除尘手段,已经得到越来越广泛的应用。鉴于静电除尘系统所处的高压环境
扩展频谱通信是近几十年发展起来的一门高科技通信技术,因其容量大,抗干扰能力强,保密性好,以及可实现多址通信等优点,近年来在民用和军用通信中都得到了广泛的应用。也正是