论文部分内容阅读
流量数据是对网络规划、网络管理、网络安全、新网络协议等研究工作的重要基础。随着网络的不断发展,规模不断扩大,网络数据流量急剧增加,高速网络越来越普遍。低速网络环境下使用一般的工具就能记录所有流量数据,再简单过滤掉无用的数据就可以减少要存储的数据量。但是,在高速网络环境下,大量记录数据和简单过滤都变得不太可能。所以,设计针对高速网络海量数据的实时存储与查询系统已经成为当前网络测量领域越来越重要的挑战。流量数据时间机(Time Machine)系统是由Stefan Kornexl和他的同伴在2005年设计提出的一种基于动态过滤方案和缓冲存储装置的系统。该系统针对高速网络,其设计目的主要有两个:大量记录高通信流量并保存一段时间和让使用者能方便快速的查找所需要的历史数据。到目前为止,时间机系统是对高速网络环境下的海量数据实时存储性能最好的系统。本文对时间机系统的反馈数据的特征字符串匹配以及系统的数据存储两部分进行了有效的改进。首先,为了能在高速网络环境下有效的进行实时数据监测或内容审计,提出Sunday字符串匹配算法的改进版本RoSunday算法,用于对系统反馈回的包数据进行特征字符串的匹配,以加快查询匹配的速度,提高数据检测的效率。同时,为了在不影响数据查询速度的前提下提高时间机系统的空间利用率,我们给每个数据包建立了查询-分类两级索引,并选出一种相对较优的无损压缩算法用于对数据包存储前的压缩。这样,使用者只需要在索引文件中查询所需数据的相应查询索引项,由于数据包在压缩的同时,其索引不压缩,引入压缩算法在大幅度提高空间利用率的同时根本不会影响数据的查询访问速度。最后,针对数据包压缩前后所占存储空间、索引查询结果、特征字符串的匹配时间三个方面做了对比实验,并对实验结果进行了详细分析。实验结果证明本文对时间机系统的改进是切实有效的。