面向数据流的优化聚类算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:o9876521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,国内外学者对数据流上的聚类分析问题进行了大量的研究工作,但仍存在不少问题尚待研究和解决。大多数基于网格的聚类算法,对网格单元缺乏有效的存储结构;现有算法对簇边缘的数据点不能准确聚类,也不能有效处理噪声点;序列数据普遍存在于数据流中,现有算法不能很好度量序列间的相似性,以致聚类质量较低。这些问题的研究对现有数据流系统的聚类分析功能的优化以及在具体领域的应用具有重要意义。首先,设计了一种基于网格划分的索引树结构Pks-tree。该索引树结构仅存储非空网格单元,并保持网格单元之间的位置关系,以提高聚类时的存储和检索效率。在Pks-tree的基础上设计基于网格密度的数据流聚类算法,通过遍历Pks-tree,并标记不同的网格单元来获得聚类结果。其次,提出了一种基于网格密度和关联度的数据流聚类算法。使用基于关联度的技术处理簇边缘的网格单元;定义一种基于时间的密度阈值函数,以实时地删除噪声点。算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,并基于网格密度和关联度动态地调整已生成的簇。最后,提出了一种基于聚类技术的软件漏洞检测方法。设计一种新的序列间相似性度量机制来指导聚类过程,通过对已有软件漏洞序列集进行聚类分析,挖掘潜在的漏洞模式,构造模式库;采用一种基于相似性度量的检测机制来分析疑似漏洞序列,以降低检测的误报率和漏报率。通过计算疑似漏洞序列与模式库中漏洞模式的相似度,对待测软件进行漏洞分析。本文通过实验对上述提出的算法和方法进行了有效性和可行性的验证,并与已有经典算法和方法进行了比较分析。
其他文献
随着通信技术的不断发展和社会需求的日益增长,传统的单一媒体的通信服务,如电话、传真,已难以满足人们的日常需求。基于宽带网络的视频会议系统把视频、音频、文字等多种媒体信
问答系统是集自然语言处理技术和信息检索技术于一身的新一代智能搜索引擎。与传统的搜索引擎相比,问答系统能更好的满足用户的查询要求,更准确地检索出用户所需要的答案。问答