面向大数据的高效Top-n局部异常检测方法

来源 :烟台大学 | 被引量 : 0次 | 上传用户:sephinroth
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着各类智能移动设备的广泛普及,社交网络、网上购物、移动支付、位置服务等新兴应用不断涌现,各类海量大数据被采集和处理,而面向这些大数据的挖掘分析服务已俨然成为一大独具特色的新兴产业。异常检测作为数据挖掘最重要的任务之一,在网络监控、信用卡欺诈等各种应用领域都被认为是至关重要的内容。此外,在实际生活中,数据分布往往是倾斜的,而局部异常检测能够有效解决数据倾斜分布下的异常检测问题,在很多应用领域具有较好的检测效果。因此,局部异常检测在学术界和工业界都受到了越来越多的关注,本文为了更加高效快速地检测出海量大数据中的异常对象,提出了两个基于密度的局部异常检测方法,主要研究内容如下:(1)在面向静态大数据异常检测方面,提出了一种快速的top-n局部异常点检测算法,融合索引结构和多层LOF上界设计了多粒度的剪枝策略,以快速发现top-n局部异常点。首先,提出了四个更接近真实LOF值的上界,以避免直接计算LOF值,并对它们的计算复杂度进行了理论分析;其次,结合索引结构和UB1、UB2上界,提出了两层的Cell剪枝策略,不仅采用全局Cell剪枝策略,还引入了基于Cell内部数据对象分布的局部剪枝策略,有效解决了高密度区域的剪枝问题;第三,利用所提的UB3和UB4上界,提出了两个更加合理有效的数据对象剪枝策略,UB3和UB4上界更加接近于真实LOF值,有利于剪枝更多数据对象,而基于计算复用的上界计算方法,大大降低了计算成本;第四,优化了初始top-n局部异常点的选择方法,利用区域划分和建立的索引结构,在数据稀疏区域选择初始局部异常点,有利于将LOF值较大的数据对象选为初始局部异常点,有效提升初始剪枝临界值,使得初始阶段剪枝掉更多的数据对象,进一步提高检测效率。在七个真实数据集上的综合实验评估验证了所提方法的高效性和可扩展性,相比最新的方法,时间效率提升可高达3.5倍。(2)针对流式大数据的局部异常检测问题,提出了面向大数据流的基于KDE的top-n局部异常检测方法。首先,定义了基于KDE的局部异常因子KOF(KDE-based Outlier Factor)来衡量每个数据对象的局部异常程度;其次,提出了 KOF上界和基于上界的剪枝策略,为了避免直接计算昂贵的KOF值,利用上界来快速地剪枝掉大部分非异常对象;此外,提出了面向大数据流的基于上界剪枝的top-n KOF检测方法(UKOF),以有效解决滑动窗口环境中的数据更新。同时,为了进一步降低计算成本,提出了 UKOF延迟更新的方法(LUKOF)来批量更新高速大规模的数据流中的数据对象。实验结果表明所提出的方法在时间效率上比最新方法高出3600倍,同时在检测数据流上的局部异常点方面达到了最佳性能。
其他文献
薄板上裂纹等缺陷的检测成像对高压容器、航空器、核反应堆及其他板状结构的健康监测是非常重要的。针对薄板上裂纹超声检测成像的困难,利用弯曲波进行检测可望成为一种重要
水力压裂微地震监测是在地下岩石断裂或地层错动而产生的声发射现象的基础上建立的一门学科。随着微地震定位算法的不断提出与改进,微地震监测技术得以快速发展、成熟。目前
Ti3SiC2陶瓷具有良好的热性能、高强度、低密度易于加工等优点,从而得到了许多学者的广泛关注。但是由于Ti3SiC2陶瓷材料具有脆性、难以制备大尺构件的问题,极大的限制了它的
霉心病是苹果生长过程中多见的病害之一,其在果树生长初期、成熟期和贮藏期分别会导致果树落果、果实品质下降和果实腐烂,甚至还会引起相邻的健康果实病变等一系列现象,不仅
随着人们逐渐意识到环境问题的严重性,各国政府开始不断加强环境规制来约束企业的污染行为以保护环境。环境规制在起到保护环境作用的同时,会对经济发展、产业绩效等产生影响
随着计算机技术的进步,软件工程蓬勃发展,软件开发规模越来越庞大,结构越来越复杂,软件中漏洞的数量也日益增加。同时,漏洞的危险性也在逐渐提高,并且绝大部分漏洞是可以被黑
轮胎是现代社会生活所必不可少的一种工具,其结构复杂,各类组成部件的生产工艺繁琐,且生产过程自动化程度相对低。随着人工成本的增加及轮胎企业竞争形势的加剧,各大厂商均在
在全面完善地面数字电视覆盖网、彻底完成地面电视模拟化向数字化过渡的攻坚时期,数字电视发射系统应覆盖更广的范围、占用更小的空间资源、承载更多的频道数。天线是数字电
近年来,随着信息系统不断发展以及业务流程智能化的普及,信息系统被广泛应用到业务流程中。但是,业务流程逐渐便利化的同时也受到信息系统安全性带来的影响。目前关于系统安
资源既是经济社会发展的基础,同时也是制约经济社会发展的主要因素。随着我国经济的迅速发展,对矿物资源的过度消耗也在不断加剧,造成了高品位矿石迅速减少。而我国又蕴含了