一种基于活跃网格密度的数据流聚类算法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:zsmslife
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,越来越多的数据以流的形式每天都在影响着人们的生活。数据流的连续性、潜在无限性、高速流动性等特点,使得数据流挖掘算法对数据只能是顺序的,一次或有限次的访问。针对数据流的这一性质,传统的挖掘方法很难在有限的时间内满足数据流的需求,因此,非常有必要找到适合数据流性质的聚类算法。在近年的研究中,数据流聚类算法充当着重要的角色,一直吸引很多国内外研究者的关注。本文的主要工作就是研究并实现一种时间复杂度低并且聚类精度高的数据流聚类算法。首先分析研究了数据流挖掘的相关理论;对聚类进行分析并归纳出目前非常典型的几种传统聚类算法的优缺点以及适用范围,进而引出数据流聚类算法并对其进行阐述;然后重点提出了一种新的数据流聚类算法:一种基于活跃网格密度的数据流聚类算法。该算法首先将数据空间网格划分为由多个小正方体网格单元所形成的一种网格结构,再将数据流映射到这种结构中,应用密度的概念形成网格密度概念,然后根据特征向量判断网格的密度。并且利用密度衰减技术捕捉数据流的动态性,继而提取边界点将其删除;同时引入活跃度概念判断网格密度的活跃性,将非活跃的网格密度忽略,保留活跃网格密度进行聚类,并将本文中的算法与CluStream算法进行比较。最后将本文中的算法应用到网络入侵检测中对算法的检测率与误检率进行分析,来验证该算法是否具有可行性。实验结果表明,本文中的算法能够发现任意形状的聚类,而且算法所采用的密度衰减技术可以有效剔除噪声数据。与CluStream算法相比,时间复杂度和聚类精度都有所提高。同时本文中的算法在网络入侵检测的实际应用实验中也验证了该算法具有较高的聚类结果。
其他文献
为了便于服务请求者查找服务,服务注册中心会对服务按照某些分类体系进行分类以提高查找效率。Web服务的数量和使用的类别体系非常庞大,人工为服务标注类别将非常复杂且费时,而
无线传感器网络(Wireless Sensor Network)由大量传感器以自组织方式构成的分布式网络系统。随着微机电系统、片上系统、无线通信和嵌入式技术的飞速发展,无线传感器网络被广泛
日光温室是我国北方冬季生产的重要途径,但是对温室的操控仍然比较落后。对温室生产指导仍以人工控制为主,缺乏实用的理论指导。室内空气温度是日光温室环境监控的一个重要参
在测量测控领域,随着电子技术、嵌入式技术、网络技术和虚拟仪表技术的快速发展,仪器仪表朝着微型化、网络化、虚拟化、数字化、智能化的方向发展,一种顺应信息化进程的Internet
自动信任协商是解决跨安全域信任建立问题的有效方法之一。协商机制是自动信任协商中重要的研究内容,它主要包括策略语言、协商策略和协商协议三个方面。但现有的协商机制研
随着军队信息化建设的逐渐完善,地理信息系统(GIS)在军事上的应用方式正在向分布式、交互式和以数据服务为中心转变。具体表现为现代战争条件下,多军兵种联合作战时的战场实
文本分类技术是解决由于互联网的迅猛发展而导致人们面临“信息爆炸而知识匮乏”问题的有效手段。文本分类往往是属于多类标分类,即单篇文章属于一个或以上的类别。多类标问
随着互联网的迅猛发展,对于电信运营商骨干网络的可靠性提出了更高的要求。然而,现有的网络几乎都是靠增加冗余的设备及链路来提高网络的可靠性,不但投资成本高而且也给网络维护
金融科技正不断推动支付方式的全面升级。大数据、物联网、云计算、人工智能等技术不断应用于支付领域,对支付领域产生了深远的影响,为我们的日常生活提供了更多的安全和便利,也为商家带来了效率和价值的提升。近些年,随着移动互联网技术的快速发展,智能终端广泛的应用和电子支付业务的蓬勃发展,多家银行开始支持网上申请和网上放贷,以消费信贷为主要功能的信用卡已经成为十分普遍的理财工具,并且借由信用卡这类消费金融,衍
学位
微粒群算法作为一种全局优化算法,由于其易用性和良好的性能,已经引起了越来越多的研究者的注意。目前关于微粒群算法的研究主要集中于三个方面,微粒群算法的理论分析、微粒