局部离群点检测方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:yangnever
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测是数据挖掘领域研究的重要问题之一,与其他数据挖掘研究的任务不同,离群点检测着力于从数据集中发现与其他数据显著不同的一小部分对象。目前离群点检测已经在许多领域,诸如电子商务犯罪、电信和信用卡欺诈的侦查、视频监视和网络入侵监测等领域中得到了广泛的应用。   目前虽然有许多离群点检测算法被提出,但其中大多数算法对离群点的定义是基于全局角度的。而在许多有着更复杂结构的现实世界的数据集上,人们往往对相对于数据点的邻域而言体现出离群特性的那些离群点更感兴趣,所以局部离群点有时比全局离群点更有意义。   本文主要对局部离群点检测问题进行了研究和讨论,所做的研究工作和成果主要体现在以下几个方面:   (1)对离群点检测的研究现状进行综述,并着重讨论了局部离群点检测的相关算法及其优缺点。   (2)提出了一种针对离散属性数据集的局部离群点检测算法ENBROD。由于离散属性值之间并没有类似于连续属性值之间那样固有的距离度量关系,不能简单的把用于连续属性数据集的检测算法应用到离散属性数据集中来。该算法通过定义了一种新的信息熵增量的概念-去一划分信息熵增量,把局部离群点检测的思想推广到离散属性的数据集中。通过大量实验说明了该算法的有效性,并通过和其他全局离群点检测算法的比较,说明了ENBROD算法在局部离群点检测方面具有较高的准确性。   (3)提出了一种多粒度局部离群点检测方法MLOF。该方法通过计算多个不同邻域粒度下数据对象的近似局部离群因子,对数据对象的离群程度进行描述。该算法通过使用基于单元格的划分技术以及选择适当的近似计算公式保证了该算法在适当的检测正确率前提下,运算时间与数据集对象个数n呈线性关系。通过实验比较和验证了其性能。而且,通过将运算结果有效的组织起来,算法能够辅助用户确定适合的邻域大小。
其他文献
由于网络技术与移动通信技术的发展,基于移动计算设备的应用已经越来越普及。人们广泛地使用个人数字助理(PDA,Personal Digital Assistant),、智能电话等移动手持设备随时随
当今,用户需求频繁变化,对软件系统灵活性的期望日益增长。但是,大多数系统由于自身设计的局限性,不能及时满足用户期望,导致软件满意度降低;与此同时,开发者却疲于满足不同用户的个
软件成本估算的方法和技术众多且各有千秋,没有一种方法被证明在各种情况下的估算都是最精确的。组合估算是一种非常有效的估算方法,它避免了去选择一种单一的最优的估算方法,而
作为一种全新的信息获取和处理技术,无线传感器网络综合了传感器技术,微机电系统和无线网络技术。它能够用来进行实时监测、感知和采集各种环境或监测对象的信息并对其进行处
互联网的飞速发展极大地方便了人们从网络上获取多媒体数据,同时也给版权保护这一问题提出了新的挑战。数字水印技术作为一种新的有效数字产品版权保护的技术手段,是目前国际
随着软件产业的迅速发展,软件系统的功能和结构日益复杂,如何有效地理解复杂软件系统的结构,理解其在生命周期里的变化规律,成为人们进行软件开发、再工程、维护和重构时关注的一
随着信息技术的发展,政府、企业的日常工作都离不开信息系统。互联网技术的发展使得系统在开发和维护中产生的漏洞暴露在大量的攻击和入侵事件中,一旦数据因系统入侵受破坏将造
随着国民经济的快速发展,国内汽车拥有量与日俱增,也引发了越来越多地交通事故和道路拥堵,造成了巨大的人员伤亡和经济损失。实践证明,采用交通事件检测系统对交通事件进行快
句法分析是自然语言处理的一个基本问题。许多自然语言处理任务,如机器翻译、问答系统、信息检索、信息抽取等往往需要依赖句法分析的精确结果才能最终获得满意的解决。总体上
有关翻译等价对的自动获取对于改进统计机器翻译的质量,以及对跨语言检索,自动问答等领域的实际应用都有着非常重要的意义。   基于统计的翻译等价对的自动抽取一般有两种典