基于加权自然邻域属性和熵的离群检测研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:waixiao032124
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群检测是帮助人们在繁多复杂的信息中准确而快速地获取具有显著异常特征信息的数据挖掘方法。其在互联网、通信、金融、医学、地质学、天文学等领域得到了广泛的应用,如入侵检测、信用欺诈、心电图监测、地震预测、新星体的发现等。随着数字信息时代的到来,世界上的各种事物都开始转向以数字为载体的存储和传输,增加了人们应用、处理各种复杂数据集的几率。数据的数量和维度级别的不断增加,对现有离群点检测算法的准确率和高效性发出了挑战。本文在以上背景下对国内外关于离群挖掘的研究现状和研究成果进行了总结分析,对离群数据挖掘的相关应用和预处理等工作进行了介绍,并概述了传统的离群检测算法以及近几年流行的新颖离群检测算法的工作原理和它们各自的优缺点。基于以上,考虑到离群点在本质上是一种小概率事件的思想,并且目前离群点检测技术的发展趋势逐渐接近对离群点本质的思考和探索,本文采用了通过计算数据集中数据点的分布概率来衡量数据集不规则程度的基于信息熵的离群挖掘方法,并展开了研究。在综合分析了近几年来关于信息熵的离群检测算法的发展历程和研究成果、以及基于信息熵离群检测算法可改进之处的情况下,本文选取了在计算复杂度、检测率、以及数据集通用性上具有综合优势的EOF(Entropy Outlier Factor)算法作为研究基础。并通过改进算法对离群点的输出处理流程,得出了能够在局部上优化EOF算法检测结果的NCEOF算法。随后,为了提高算法对于不同数量、维度、复杂程度数据集的检测高效性和通用性,本文类比EOF计算离散属性信息熵增的思想,引入了自然最近邻概念,以用于计算连续属性的局部信息熵偏离度,并结合连续属性的整体和局部权重度量,提出了基于加权自然邻域属性和熵的离群检测算法HLEAWOF。本文最后在UCI数据集Wisconsin Breast Cancer、以及KDD-Cup99部分数据上对改进后的算法展开了实验,并在相同环境下与原EOF算法进行比较,验证了算法的通用性以及改进有效性。并分析了算法的改进优势和仍然具有的不足之处。最后,本文对相关工作做出了总结,并对未来离群检测技术发展趋势作出了展望。
其他文献
作为人工智能的重要方向,OCR技术发展至今已较为成熟,并在各个行业中取得了较为广泛的应用。OCR的应用领域已经逐渐从大型企业和政府机构扩展到了各类企业和大众的同常工作中
曲面匹配是通过对几何模型的分析、变换、特征提取等手段来实现对模型的识别、相似性的度量和拼合。这一技术在测量建模、碎片复原、医学图像配准等领域有着重要的作用。在计
图像分割就是根据图像的底层相关特征,从图像中提取出感兴趣的目标。而图像分割中的医学图像分割领域,由于其具有现实意义和实用价值,临床需求大,受到了研究者广泛的关注。本
网格是把空间位置上分散的资源集成起来的一种基础平台,这个平台为用户的请求选择合适的资源服务,实现广域范围内的资源共享。由于网格的跨管理域、动态、异构和信息的不确定
目前,在对非线性系统的预测中,使用神经网络的方法已经取得了良好的效果和广泛的应用,特别是循环神经网络在预测中更具有优势,但是长期以来其学习方法却一直没有较大的提高。
关联分类算法具有较高的分类准确度、较好的扩展性,受到广大研究人员和工程师的喜爱。关联分类算法可以分为显式关联分类和Lazy关联分类。当面对大数据的时候,显式关联分类没
随着信息技术的迅速发展,图书馆自动化程度的逐步提高,图书馆具有的知识信息传播服务功能也在不断增强,成为社会的信息枢纽和Internet的重要组成部分。图书馆数字化不仅改变
近年来,由于解决各种类型的工程优化问题的需要,最优化技术在数学基础和实用算法等方面获得了越来越多的关注和进展。特别是通过对自然界客观发展规律的模拟,研究者得到了诸如模
旅游业的兴起和人们对旅游度假日益增长的需求,迫切需要从网络中搜集到符合要求的信息并进行智能分析。因此研究基于信息推送和检索系统的智能导游系统具有重要意义。本论文以
实景RPG与传统的网络游戏有着本质的不同。在实景RPG中,玩家扮演某个角色,利用特制的电子道具,完成基于真实环境的游戏任务。现今,实景游戏的研究还处于探索阶段,目前还没有