论文部分内容阅读
本文中,我们研究了协同聚类,并将相关概念与信息安全中的聚类分析联系起来;在这个问题中,我们关注于纷繁复杂的网络攻击时代中,随着数据的数量和复杂性不断增长所带来的数据安全与隐私问题。在应用需求的推动下,我们引入了协同聚类框架,该框架能够为信息安全中的数据挖掘应用进行大型分布式数据库建模和网络建模。协同聚类符合信息安全中的数据挖掘需求主要体现在两个方面:首先是协同聚类能通过使用信息颗粒保证隐私,同时允许使用原型进行协同任务;其次,在面向具有高维大数据集和表示被监控对象行为的多个特征时,为算法提供可扩展性,这反过来不仅增加了学习正常行为问题的复杂性,而且还可能给聚类分析带来严重错误。然而,诸如协同模糊聚类、协同自组织映射和协同生成式拓补映射等协同聚类方法存在需要输入参数来决定协同信息影响的问题,这些参数对聚类结果又很大的影响,因此不能被忽视。我们提出了一种协同聚类框架,该框架使用粒子群优化来最小化聚类的熵,以寻找最佳聚类中心。此外,它使用粒子矢量位置更新来确定协同信息的重要性,从而消除了对用户输入参数的依赖。被称为粒子子圈的框架结合了来自几种聚类算法的信息,从而部分解决了选择正确聚类方法的问题以及使用的最佳参数,在多数情况下,这些参数在由于对聚类算法和已知的性能评估方式认识不足而变得困难。该框架还解决了目前最先进的协同聚类算法的不足,即初始类簇生成过程只使用了单一类型的聚类算法。此外,框架的功能也被扩展到粒子群聚类,其中可以并行使用多个聚类算法,这在增加群中的粒子数量同时不需要增加类簇数量,同时还有助于应对局部最小值的问题。通常,协同聚类框架能够很好地解决由大量数据库和网络数据引起的信息安全问题。此外,在聚类时,具有冗余特征信息问题的数据集可以很容易地从水平方向上进行处理:数据根据属性进行分割,然后通过协作各个集群来给出解决方案,从而生成最终的解决方案。同样,垂直协作允许数据集沿着数据进行分割,因此单个集群处理小容量的数据,并通过协作给出相应的解决方案。简言之,协同聚类将分布式和多视图聚类及其各自的功能集合在一起,以解决大规模数据集和具有冗余特征信息的数据集所带来的问题。因此,本文从理论和实证上分析了我们提出的半随机粒子子协同聚类框架在扩展早期处理大规模数据集方法灵活性和可靠性方面所带来的优势和存在的局限性。相应地,我们使用了UCI数据集上的一些公共可用数据集来验证实验。