论文部分内容阅读
近年来,随着互联网技术的飞速发展,各种高速、大容量的实时流数据处理已遍布各种应用领域,如网络监控、金融分析、网络入侵检测、传感网络、Web日志以及点击流等,这些应用领域产生的数据以流的形式出现,具有快速、无限、连续、速率不断变化、实时的特点,使得传统的数据库技术在处理这种新型的数据模型时面临了诸多严峻的挑战。
本文分析了目前流数据管理研究领域的各种技术的优势和存在的问题,重点对分布式异构流数据集成、流数据存储以及流数据频繁项挖掘的降载问题这三个方面开展了研究,最后设计并实现了面向高速网络的综合网络安全实时监测系统。
首先,各种分布式异构流数据集成问题。在许多分布式监控应用中,需要集中处理网络上各个节点的数据,这些数据存在格式、规范以及标准的不统一,需要进一步转换和集成,以便处理系统能够综合处理各种异构的数据。基于现有的数据集成转换技术和流数据处理技术,本文提出一种基于流数据管理系统的分布式异构流数据集成方法。通过系统实现和实验分析,证明该方法能够较好的解决网络安全实时监测系统的数据集成问题。
其次,存储空间问题。需要处理的流数据是无限的,不可能完全存储起来后再处理。因此,本文结合网络安全监测应用领域和流数据特点,提出了一种基于时间多粒度的存储策略。实验证明,该策略能够较好的降低存储空间,同时保证了数据的完整性。
再次,流数据处理过程中的过载问题。在有限资源下实现对无限流的实时处理是一个难题。本文针对流数据频繁项挖掘过程中出现的过载问题,提出了一种面向流数据频繁项挖掘的降载策略。实验证明,该降载策略能够有效地保证流数据频繁项挖掘的结果。
最后,以网络安全监测应用为落脚点,设计并初步实现了面向高速网络综合安全实时检测系统原型。该系统能够集成各种网络设备的网络流数据以及历史流数据,能够实时检测各种网络状态和异常信息。通过实验和系统测试,验证了上述研究的正确性和有效性。