论文部分内容阅读
聚类就是要把大数据集合中相似度较高的对象聚集在一起,而把相似度较低的对象区分开来,使得类之间相似性尽量小,而类内的相似性尽量大。目前聚类已被应用于多个领域,但随着人类对自然和社会认识的不断深入,对现有聚类算法提出了新的挑战。毋庸置疑,现有的算法确实能够解决一些问题,但是还不存在“万能”的解决方案。把聚类算法应用到入侵检测过程中则是人们研究的一个新的领域,尤其是网络的高速发展对入侵检测系统提出了新的要求。这些挑战和要求需要人们对聚类作进一步的研究。本论文首先介绍聚类的定义,综述几种常用的聚类算法,分析聚类的有效性,给出多种聚类有效性评价指标,并分析和总结各自的特点。接着提出一种新的聚类算法,即基于系统能量理论的聚类算法。在这个过程中,定义能量函数和聚类预处理,详细地描述聚类过程,并结合熵理论提出一种新的聚类有效性评价函数,还通过信息熵与样本分布的关系、信息熵与样本相似性系数的关系、相似性系数与样本系统能量的关系推导出了信息熵与样本系统能量的关系,并经过实验证明本文提出的聚类算法和聚类有效性函数的有效性。再次,为了更准确的得到样本系统的能量,提高聚类算法的分类准确性,通过分析神经网络学习方式和算法,尤其是对BP神经网络的分析,提出一种新的神经网络模型,利用该神经网络来调节样本不同属性的权重,并推导神经网络初始权值的确定方法和神经网络的训练过程。接着,综述入侵检测系统的原理和性能评价方法,构建系统的结构,给出检测过程,为了提高检测效率,还重点分析数据约简算法。最后对KDD99数据集进行实验证明该算法能够很好的应用到入侵检测系统中,而且神经网络的改进使聚类算法的聚类准确性和入侵检测系统的检测率有了较大的提高。本文将系统能量理论应用到聚类算法中和将算法应用到入侵检测系统中,可以很好的进行聚类和入侵检测,尤其是通过神经网络对算法的改进,能够更准确的进行聚类和网络入侵检测,将有利于聚类和入侵检测的进一步研究。