基于聚类的数据流异常检测算法的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:cngd0613
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在海量的、动态变化的网络数据流中如何检测出异常,是网络安全领域主要关心的问题,同时也是检测网络攻击的主要手段,现在越来越受到学者的关注。在网络数据流方面一般认为正常的行为占大多数,而异常的行为属于个别行为。基于此假设,选择k-means算法对数据流进行聚类分析,最终不属于任何子簇的数据点最有可能是异常点。k-means算法的执行过程是首先确定k个初始聚类中心点,将新到来的数据对象点根据距离阀值与距离最近的子簇合并,最终完成具有k个子簇的聚类结果。本文针对k-means算法存在的缺点和不足,例如,对输入数据对象点输入顺序敏感、容易陷入局部最优而非全局最优等问题。从两个方面对原有算法进行改进:首先根据有效性函数最小性原理,确定接近于真实聚类数的k值,然后通过执行聚类中心选择算法,选取处于高密度区域的若干点,将点集周围数据点数量作为权值赋予该点,对选取的若干点集合构建最小堆,然后进行堆排序,权值作为堆节点的值,一次扫描确定密度最高的k个数据点作为初始聚类中心。改进后的k-means算法可以使准则函数收敛的更快,由于使用堆排序而非距离迭代计算选取聚类中心,时间复杂度相对较低,从而使算法在执行的时间效率上得到提高,又由于初始聚类中心点选择的接近于真实聚类中心,在聚类过程中不容易将大簇分割,从而使聚类结果更准确。最后选取UCI数据库中的数据集和KDD99数据集,对改进后算法和原算法进行聚类分析。实验结果表明,改进后的算法提高了聚类结果的准确性,同时算法的执行效率也有一定程度的提高。
其他文献
根据联合国粮农组织FAO提供的1950—2010年西北太平洋各沿海国的渔获生产统计数据,结合Fishbase提供的相关鱼种营养级(TL)以及Sea Around Us Project Database提供的无脊椎动
目的总结国内广州管圆线虫病的临床表现,提高临床医生对该病的认识水平。方法复习国内相关文献。结果广州管圆线虫病临床表现:①神经系统表现:嗜酸粒细胞增多性脑(脊)膜炎型
目前,我国污水处理厂正处于迅速发展时期,这对缓解水资源危机和保护环境有重要意义,但在运行管理和技术等方面有许多问题需要研究解决。内蒙古师范大学盛乐校区污水处理厂属
目的探讨小儿肺吸虫病的临床特点。方法23例肺吸虫病患儿经临床和实验室检查确诊后予以吡喹酮90~100mg/kg·d×2d治疗,并对临床资料进行分析总结。结果肺吸虫病发病年龄以学龄
为进一步提高海南天然橡胶的产量和质量,在分析海南天然橡胶产业结构规划优势的基础上,分别从产业链、信息链、价值链三个方面,探讨海南天然橡胶产业结构规划的建议对策。
人类社会进入21世纪,迎接我们的是一个全球化、信息化、网络化和以知识驱动为基本特征的崭新的经济时代——知识经济时代。对于企业所处的财务环境受整个经济环境的影响,也发
肖邦《F大调叙事曲》是一首极具技巧性和表现性的钢琴作品,其独特的构思,强烈的对比往往会让演奏者对其完整性产生误解。本文以分析《F大调叙事曲》的创作特征为契机,对其演
通过调查与分析,揭示总体小康与全面建设小康社会农村体育地位发生了重大变化,农村体育将成为新时期我国群众体育的工作重点。广大农民不仅需要体育,而且热爱具有乡土特点的
这篇文章对1949至1956年我国服装设计观进行了研究,以《中国妇女》、《中国青年》等综合性期刊为史料进行了梳理与分析,得出这一时期的服装设计宗旨为"美观、经济、实用",并
目的了解广东湛江地区引起真菌性角膜炎的病原真菌的分布情况。方法对70例疑患真菌性角膜炎的患者,取病变角膜上皮组织,分别进行真菌直接涂片镜检和真菌培养,并对检查阳性者