论文部分内容阅读
互联网自由性、开放性、虚拟性,为犯罪分子肆意传播非法内容、非法获取网络资源创造了机会。我们的电脑每天都与外界进行大量的信息交流、数据访问,甚至遭受来自其他电脑的攻击,这期间都会留下各种各样的痕迹,如何从这海量的数据中获取有价值的信息、有效识别外来攻击,成为当前取证分析技术领域研究的热点。显然传统的取证方法很难依据相关技术找到证明某个事实的依据,在这种情况下,高效的计算机取证技术应运而生。计算机取证涉及到对证据的预处理、证据融合等分析方法,而当前对证据预处理的准确性不高以及证据融合有效性差等问题都在一定程度上降低了证据的可信度。为此本文从证据预处理、证据融合两个方面入手,首先采用改进的层次聚类算法对证据进行预处理,用以解决证据量过大、证据信息过于复杂的问题;然后采用改进证据组合规则的证据理论,用以解决当前证据融合过程中一票否决、冲突证据难以有效融合的问题。本文主要做了以下几点工作:(1)针对层次聚类算法在距离度量方面的不足,提出一种基于全局距离度量的层次聚类算法。分析现有层次聚类算法存在的问题,介绍了层次聚类算法中用到的距离度量方法——全局距离度量,以及层次聚类算法中常用的一种方式——凝聚式,鉴于以上两点提出了基于全局距离度量的凝聚式层次聚类算法,该算法通过最大化目标函数达到全局最优,实现了对不同密度数据的有效聚类。(2)对证据理论基本概率进行再分配,实现对冲突证据和低可信度证据的有效融合。分析D-S证据理论的相关知识,对其基本概念、组合规则、以及存在的问题进行分析。鉴于其在高冲突证据融合过程可信度不高的问题,提出一种改进的证据理论组合方法,该方法首先对冲突证据进行识别,然后对其进行基本概率再分配处理,即对每个冲突证据在融合过程中加上不同的权值;最后利用传统的D-S证据规则对处理好的证据进行融合,以实现在不丢弃有效信息的情况下获得有效的融合结果。(3)设计基于D-S证据理论的冲突证据分析系统框架,实现对KDD CUP99数据的融合分析。对采集到的数量庞大、数据类型不统一的原始数据利用基于全局距离度量的凝聚式层次聚类算法进行聚类预处理,减少证据体的数目;然后利用改进的证据组合规则进行融合处理,获取合理有效的证据分析结果。通过构建冲突证据分析模型对用户提交到服务器端的KDD CUP99数据进行先聚类、后融合的处理,以此来验证本文提出的冲突证据分析系统在证据分析方面的有效性。