论文部分内容阅读
数据挖掘是当今计算机研究领域中一个热点问题,它的意义在于从海量数据中挖掘出有效的,新颖的,有潜在应用价值的并且最终可以被人们所理解的知识。传统的数据挖掘关注的是如何找到对数据集中的大部分数据通用的模式,比如关联规则,分类,聚类的相关研究。离群数据挖掘则是从海量数据中找出相对稀疏和孤立的异常数据模式。离群数据挖掘在异常电子消费检测、网络入侵检测、发现集合中的稀有元素以及检测病人对新治疗方案的异常反应等现实场景中有着重要的应用价值。离群数据挖掘主要有两个内容:离群点的挖掘和离群释义。本文关注的是如何有效挖掘离群点,在各种离群挖掘算法中,基于密度的局部离群挖掘方法是一种有效的挖掘算法,它从局部范围内考察数据的离群属性,采用离群因子刻画数据对象的离群程度,具有较强的实用性。本文主要针对基于密度的离群挖掘算法进行了研究和改进,具体的工作如下:①阐述了离群数据挖掘的研究背景、意义和国内外研究现状,描述了离群数据挖掘的工作框架,介绍了离群数据挖掘基础知识和相关技术,给出了离群挖掘算法的衡量标准。②综述了目前离群数据挖掘的典型算法,介绍了算法的研究动机和工作原理,分析了它们的优势和不足。③在深入分析现有基于密度的离群挖掘算法的基础上,提出了一种基于改进的离群因子—ISSDOF的新的有效的离群数据挖掘算法。计算该离群因子的算法在寻找数据点的近邻区域时采用了基于影响空间的局部离群点检测(INFLO)中影响空间的概念,然后通过改进基于链接的离群点检测(COF)中链式距离的思想提出了基于相似k距离邻居序列(SKDNS)的离群因子计算方法。④通过实验论证了本文提出算法的有效性,在模拟数据集上的实验,证明了本文算法能够准确挖掘数据分布较为复杂的数据集中的离群点,通过在UCI机器学习数据库中的真实数据上的实验对比,进一步论证了本文算法的优越性,最后运用本文算法和其他算法分析了篮球运动员的数据统计,显示出本文算法的通用性和多样性。