一种多数据流聚类异常检测算法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:wt920997920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流作为一种新型的数据模型,在许多应用诸如网络流量管理、金融数据处理、交通治理以及电子商务中都扮演着重要的角色。在数据流挖掘技术日益得到广泛关注的今天,多数据流处理问题给研究人员带来了新的挑战:一方面,由于多数据流既要求保留数据流的无限和快速等特性,还需要利用有限的系统资源减少多数据流不确定性因素对挖掘过程造成的影响;另一方面,由于多数据流之间具有相关性,其处理技术则要求不仅关注一条数据流的流量变化,同时还需要根据大量数据流之间的相关性进行研究。因此仍存在许多问题尚待解决,学术界对多数据流的聚类分析和异常检测问题进行广泛的研究。本文主要研究基于聚类的多数据流异常检测问题,首先总结数据流挖掘的相关理论;对现有的聚类算法进行详细的分类介绍。结合多数据流的特点,总结多数据流聚类的研究方向和现有的异常检测的方法,分析了多数据流异常检测存在的难点和面临的挑战。在分析了聚类的多数据流异常检测所存在问题的基础上,本文设计了一种性能较好的多数据流异常检测算法。该算法首先对多数据流进行预处理,根据数据流序列的相关度特征运用离散小波变换,得到压缩的流序列,降低了系统内存存储需求,加快了计算机处理的时间;建立了改进的相似度矩阵,提高了聚类结果的准确率;通过计算每个数据点的局部可达密度,对核心对象进行标记,从而实现基于密度的聚类,生成任意形状的聚类;最后对聚类产生的被定义为噪声的集合,进行增量的LOF计算,根据设定的离群点阈值,判断多数据流中的异常。本文在聚类的同时,运用离群点检测算法实现对多数据流的异常检测。实验结果表明,本算法在聚类的同时可以更好的发现异常,且与DBSCAN算法相比,时间效率得到了提高,得到更好的异常检测效果。
其他文献
无线多媒体传感器网络是一种追求感知信息类型多样化的新型传感器网络,通过使用多媒体传感器节点,它能采集音频、视频、图像等多媒体信息。由于存在多种类型的数据分组,MAC协议
近年来,随着在线社会网络的不断发展和计算机系统处理能力的不断提高,社会网络分析和挖掘成为热门的研究领域。大部分对社会网络的研究集中在只有正链接的网络,本文研究对象
随着网络对传统出版物和媒体的冲击,用户对于新闻浏览习惯发生了改变,越来越多的人养成了每天在网络上浏览新闻的习惯。本文研究如何高效、准确地从海量的新闻和新闻评论中找
近年来,云计算技术在学术界和工业界都成为关注的热点。大型数据中心提供的服务,尤其是Web应用,以及使用的各种虚拟化技术构成了云计算的基础架构。数据中心中通常拥有大量的
数据存储策略的研究是无线传感器网络有关数据管理与处理的一项重要研究内容。其本质就是尽可能有效地利用有限的存储空间和有限的节点能量,将感知数据存储在网络中的某个确
逆向工程是近年来发展非常迅速的一个研究领域,应用领域非常广泛,是CAD/CAM领域缩短产品再设计与制造周期的重要技术之一。而曲面重构问题正是逆向工程中的关键内容。而随着
随着数据规模的不断扩大和用户数量的急剧增加,传统的结构化数据库访问面临的压力越来越大,提高MySQL等结构化数据库的读写性能成了一个亟待解决的问题。Redis内存数据库将所
随着微电子技术、通信技术和嵌入式计算技术的发展与进步,无线传感器网络得到了广泛地应用,并引起了国内外研究人员的的极大关注。为此,本文对无线传感器网络中具有重要意义
随着互联网应用的日渐多样化,在实际的互联网应用中,存在着大量对名人、明星、罪犯、热门图像等特定人脸图像的搜索需求。传统的文本检索具有检索方式单一的局限性以及检索精
随着Web2.0时代的到来,用户在互联网上发布信息的门槛变得越来越低,使得互联网上的信息量变得极其庞大。博客作为一种典型的Web2.0应用,以其简单、方便的使用方式吸引着越来越多