基于网格的密度峰值聚类算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:chenfurongyalan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析一直是数据挖掘技术的重要方法,在无监督学习任务中比重最大,在社会各个领域中应用广泛并取得了良好的社会效益。网络信息科技的进步和发展,丰富了人们获取资源的渠道,人们可以从网络上获取海量的信息资源,与此同时,网络访问行为产生了海量的网络流量数据。而网络异常、恶意操作和黑客入侵的行为致使网络流量中存在着大量的异常数据。因此,从海量网络流量数据中检测出异常数据成为了一个重要的课题。研究此课题时,有两个与聚类相关的任务:一是在数据预处理阶段建立聚类模型,用于数据归约和探索数据内在的分布结构;二是建立无监督的异常检测模型。密度峰值聚类算法是一个典型的基于密度的聚类算法,是2014年Science上提出的。由于其可以快速搜索发现聚类中心,算法简单且具有较高的准确性,引起了众多学者的关注。本文采用密度峰值聚类算法的思想建立聚类模型,来对大规模数据下的网络流量数据进行分析处理。针对密度峰值聚类算法快速搜索发现聚类中心并进行有效聚类的特点,本文提出了结合基于网格的聚类算法与密度峰值聚类算法的聚类模型,用于数据预处理。该模型以多粒度网格划分的角度出发,从粗粒度网格和细粒度网格两个方面,做了如下工作:1.粗粒度网格,提出了基于粗粒度网格的密度峰值聚类算法。首先在粗粒度下进行网格划分,然后对每个网格单元的数据独立进行密度峰值聚类,最后通过网格边界合并网格空间中的聚类结果,进而得到最终聚类结果。实验结果表明,粗粒度网格的算法模型能够有效处理大规模数据,且具有较高的运算速率。2.细粒度网格,由于粗粒度网格的算法丢失了部分全局的数据分布信息,从而影响聚类结果的精度,因此本文提出了基于细粒度网格的密度峰值聚类算法。首先在细粒度下均匀划分网格,然后根据密度峰值的思想计算中心单元,最后合并与中心单元相近的网格单元,得出聚类结果。实验结果表明,细粒度网格的算法模型能快速寻找到全局的聚类中心,进而拟补基于粗粒度网格的算法模型的缺陷。最后将本文算法应用到“基于大数据的WEB攻击检测系统”中,并在系统中稳定运行且效果良好,说明本文算法具有实用性。
其他文献
<正>护理学的创始人南丁格尔曾经提出:"人是各种各样的,由于社会职业、地位、民族、信仰、生活习惯、文化程度、所得疾病的不同,要使千差万别的人都达到治疗或康复所需要的最
孩子是祖国的未来。孩子的安全问题不仅牵动着一个家庭,更牵动着整个社会。交通运输部和教育部自2013年起在全国联合开展了“水上交通安全知识进校园”活动,让安全守法知识与理
2011年7月,商丘市在全市范围内开展了为期半年的“三治三提”(治庸、治懒、治散,提质、提速、提效)推进作风建设专项活动。2012年,为巩固“三治三提”专项活动成果,商丘市从加强制
目的:探讨GDF-5联合地塞米松诱导大鼠骨髓间充质干细胞(BMSCs)向类髓核样细胞分化潜能及其表型的改变。方法:用全骨髓贴壁法及序贯酶消化法分别分离培养大鼠BMSCs和髓核细胞(NPCs),
本文以中华人民共和国成立以来历代电影工作者所摄制完成的故事影片中所塑造的电影人物形象的变迁为依托,着重探研现实主义表演创作美学原则在历代电影表演艺术家们的电影表演
以《左传·成公》为例,从地域、礼仪、语言三方面分析《左传》辞令的文化色彩以及对后世的辞令产生的影响。《左传》行人辞令在史学、文学上产生深远的影响,后世史学家、文学
<正>郑梅涧是新安医学和郑氏喉科学术流派的代表性医家。郑梅涧毕生围绕危及中华民族生存的重大疫病和危急重症,开展临床实践和学术创新,在脉学、辨证治疗学、疫病、喉科学、
针对情感词典构建中只反映了语言知识,缺乏语用知识的问题,提出了一种从真实语料中获取词语间的共现关系,并结合词语同义关系、语素特征进行中文褒贬词典半监督构建的方法。
为进一步满足广大用户对供电可靠性、电能质量和服务质量的要求,以及作为电力企业电力企业自身提高企业的效益的需要。Y供电局通过构建GIS系统平台,将电力系统的设备属性信息和
目的骨质疏松症现在已经严重影响到患者的健康水平,它已成为全世界关注的公共话题.在国内,由于患者对骨质疏松症认识不足,导致患病率呈逐渐上升趋势.方法医护人员有效规范的