离群检测算法研究

被引量 : 0次 | 上传用户:jklzqren12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点是数据集中极少数与主流数据显著不同的数据点,它们往往比主流数据更具价值。离群检测在许多领域都有着广泛的应用,吸引了包括数据挖掘、知识学习、统计学和信息论等众多学科研究人员的共同关注。多年来,已有基于各种技术针对各类数据的离群检测算法提出,但针对高维海量数据离群点检测的时间复杂度间题,始终没有得到较好的解决。基于近邻检测技术虽具有无需监督,不需要对数据的分布作任何假设等优点,但需搜索每个数据点的近邻,导致O(n2)的时间复杂度,限制了算法在高维海量数据上的应用。设计既有效又高效的针对高维海量数据的离群点检测算法有着重要的理论和实际意义。剪枝非离群点,减小目标数据集的大小是降低时间复杂度的有效手段。如果数据对象的r邻域内邻居的个数达到K个以上,则该数据对象不是DB(k, r)离群点。进一步地,如果数据对象的r/2邻域内邻居的个数达到K个以上,则该邻域内的所有对象都不是DB(k, r)离群点。利用这一剪枝规则,可以排除大量的非离群点,从而大大减小目标数据集的大小。只需通过对数据集的一次扫描即可作到这一点:以第1个点为组中心开始,顺序扫描数据集,凡与某个组中心的距离小于r/2的即被标记为该组,凡与任何组中心的距离都不小于r/2的,自动成为新的组中心。扫描结束后,凡组的大小达到K的,组内所有数据点都被剪枝掉。在检测TOP n离群点时,剪枝不必要的近邻搜索,是减小时间复杂度的第二种有效手段。以迄今为止找到的n个候选离群点中的最小K距离为闽值,一旦发现某个数据点迄今为止已搜索到的k距离比这个阈值还小时,立即停止k近邻的搜索,因为该点没有机会成为TOP n离群点。抽样也可以减小数据空间,是减小时间复杂度的第三种有效手段。但传统的均匀抽样技术,缺乏伸缩性。密度偏倚的抽样技术可以用更小的样本代表相同的数据集,且更具灵活性。如果样本由离群偏倚抽样方法所得,则可仅在样本空间内检测离群点,这等于缩小了目标空间的大小。如果样本由密度偏倚方法抽样所得,则可仅在样本空间探索一个k值较小的近邻,这等于缩小了k近邻的搜索空间。此外,数据集中的两个点关于同一样本的距离差一定小于这两个点间的距离,利用这一性质,还可以估算K距离的下界,甚至取代K距离的计算,以获得较小的时间复杂度。基于抽样的离群检测算法仅需对数据集进行三次扫描即完成离群点的识别:第一遍,密度估计;第二遍,完成抽样;第三遍识别离群点。条件离群点是近年来提出的一类新的离群点,已提出的基于近邻的条件离群点检测算法,因参数设置过多,且检测结果受参数影响太大,有一定操作难度,缺乏应用性。通过对现有算法的改进,去掉不易设置的参数,提高了算法的应用性。从本质上讲,一个数据点是否为离群点,与数据点值的大小无关,与两个数据点的距离也无关,仅与其值在数据集中的分布概率有关。数据点的值在数据集中出现的概率越低,其离群程度越大,反之,离群程度则越小。信息熵正是刻画这一特性的工具。从数据集中删除正常数据后熵变大,删除离群数据后熵变小,变小的幅度越大,离群程度越高。但目前已提出的基于信息熵的离群检测算法其熵计算方法过于复杂,为计算一个数据对象的离群度,需两次计算熵,再计算熵的变化量。而计算熵需首先计算数据集在各维度上所有属性值的概率分布,这通常需要一定的时间复杂度。然而,可以证明,删除数据对象后引起熵的变化量,可由删除前的熵以及数据对象自身各属性值的概率分布计算得出。而数据对象的离群度仅与后者有关。为此,将该值定义为熵离群度。基于熵离群度的算法仅需扫描数据集两次即可识别出离群点,进一步降低了时间复杂度。
其他文献
近年来,随着中央财政收入的增加以及国家对基层博物馆的重视,县级博物馆如雨后春笋般建立起来,迎来了我国博物馆事业发展的新局面,成为值得期待和关注的焦点。县级博物馆与其它市
在学校教育教学中,课堂是最主要也是最重要的教学场所,同时更是最具强烈感情体验的环境。穿插于这种身心交流活动过程中的感情,是师生最直接的情感体验,是教师与学生思想交流
外包一词兴起于20世纪80年代,是西方企业实施“回归主业,强化核心业务”大背景下风行起来的一种企业新战略手段。其核心思想是企业在内部资源有限的情况下,为取得更大的竞争
梁山县的民营经济之所以得到迅猛发展,关键在于县委、县政府摸清了县情,顺应了民意,找对了路子。
日语双关语作为一种语言现象,可以追溯到日本的平安时代。自古至今,双关语广泛应用于和歌等文学作品中,并出现在日常交际用语、相声、广告等日本人生活的多个方面。而且,双关语在
1957年5月毛泽东和中共中央提出在全党范围内开展整风运动,在整风运动中,少数资产阶级右派分子向共产党的领导、社会主义进攻,这些问题的出现是中国共产党始料不及的。为了社会
目的研究脓毒症时大鼠肺组织中组织因子(TF)的表达,探讨复方丹参注射液对脓毒症大鼠肺组织中组织因子(TF)的影响以及其可能的机制。方法先选取健康成年雄性Wistar大鼠48只,体
目的:通过较大样本量对冠心病胸痹病例进行中医证型及基本情况等分析,分析证型的分布情况及在部分影响因素下的证型变化,侧重讨论支架术后不稳定的状态、新一次支架术前侧枝循
南瓜子是一种具有保健功能的食品,其主要的药用成分是南瓜子氨酸,具有驱虫、降血压、抗炎等功效。本文测定了南瓜子中矿物质元素的含量,并且优化了南瓜子油、南瓜子氨酸及色氨酸
目的观察脓毒症大鼠一般情况、肺组织血红素加氧酶-1(HO-1)、丙二醛(MDA)、肺泡灌洗液(BALF)中蛋白的变化,以及氯胺酮对它们的影响,探讨氯胺酮对脓毒症大鼠肺损伤的干预机制。方法