论文部分内容阅读
离群检测是帮助人们在繁多复杂的信息中准确而快速地获取具有显著异常特征信息的数据挖掘方法。其在互联网、通信、金融、医学、地质学、天文学等领域得到了广泛的应用,如入侵检测、信用欺诈、心电图监测、地震预测、新星体的发现等。随着数字信息时代的到来,世界上的各种事物都开始转向以数字为载体的存储和传输,增加了人们应用、处理各种复杂数据集的几率。数据的数量和维度级别的不断增加,对现有离群点检测算法的准确率和高效性发出了挑战。本文在以上背景下对国内外关于离群挖掘的研究现状和研究成果进行了总结分析,对离群数据挖掘的相关应用和预处理等工作进行了介绍,并概述了传统的离群检测算法以及近几年流行的新颖离群检测算法的工作原理和它们各自的优缺点。基于以上,考虑到离群点在本质上是一种小概率事件的思想,并且目前离群点检测技术的发展趋势逐渐接近对离群点本质的思考和探索,本文采用了通过计算数据集中数据点的分布概率来衡量数据集不规则程度的基于信息熵的离群挖掘方法,并展开了研究。在综合分析了近几年来关于信息熵的离群检测算法的发展历程和研究成果、以及基于信息熵离群检测算法可改进之处的情况下,本文选取了在计算复杂度、检测率、以及数据集通用性上具有综合优势的EOF(Entropy Outlier Factor)算法作为研究基础。并通过改进算法对离群点的输出处理流程,得出了能够在局部上优化EOF算法检测结果的NCEOF算法。随后,为了提高算法对于不同数量、维度、复杂程度数据集的检测高效性和通用性,本文类比EOF计算离散属性信息熵增的思想,引入了自然最近邻概念,以用于计算连续属性的局部信息熵偏离度,并结合连续属性的整体和局部权重度量,提出了基于加权自然邻域属性和熵的离群检测算法HLEAWOF。本文最后在UCI数据集Wisconsin Breast Cancer、以及KDD-Cup99部分数据上对改进后的算法展开了实验,并在相同环境下与原EOF算法进行比较,验证了算法的通用性以及改进有效性。并分析了算法的改进优势和仍然具有的不足之处。最后,本文对相关工作做出了总结,并对未来离群检测技术发展趋势作出了展望。