论文部分内容阅读
摘要:在网络日渐普及开放的今天一些不健康甚至是违法的网络信息,充斥着我们的校园网络。因此,针对当前对校园网络环境的净化需求,本文设计实现了一个基于知识库的网络信息采集及还原系统,供后续的分析处理,这对网络监管净化類系统提供了新的技术手段,具有重要的现实意义。
关键词:网络信息;采集;还原
1 绪论
1.1背景与意义
随着信息交流方法的多元化,论坛,微博等成为被大众认可信息发布和社交网络平台。而不法分子利用网络传输色情、暴力等信息,这些信息给人们尤其是未成年人带来的危害是无法估量的。必须采取措施对网络这把“双刃剑”进行监控与管制。正是基于这样的背景,本文提出了自己的研究思路和方法,通过对网络用户传输的网络信息的监测,对网络舆情进行分析,以防范网络给人带来便利的同时破坏我们的生活。
1.2本文研究内容
1.2.1网络数据采集技术研究
针对本文所研究的网络信息采集及还原系统的应用需求,对网络数据采集方案进行深入分析研究后,制定出了适合本文系统的采集方案。
1.2.2网络数据还原技术研究
在网络数据还原部分,针对不同网站的POST传输特征不同这一特点,分析提取了HTTP-POST网络特征,以此建立了POST传输行为的XML知识库,基于知识库对采集到的信息进行分析和过滤,并设计了相应的URL解码及中文解码方案对采集到的信息进行还原。
2 网络信息采集及还原系统设计与实现
2.1概述
整个系统采用B/S构架模式,管理员可以以任何一台可连接到服务器的远端主机作为客户端,登陆Web页面进行查看系统监测结果,而服务器端实现网络数据采集、信息还原、垃圾过滤及文件管理等核心功能。
2.2系统总体框架及流程
本系统可以分为两大部分,网络数据采集部分和网络数据解析部分,这两部分采用了伪分布式处理结构,而在网络数据解析部分中又用到了利用知识库进行垃圾信息过滤和URL解码。
2.3系统模块设计
本文系统可分为四个模块:网络数据采集模块、网络数据分析模块、垃圾信息过滤模块与URL解码模块。
2.3.1网络数据采集模块设计
(1)模块功能
网络数据采集模块采用libnids库的API架构,主要功能是捕获局域网出口处的网络数据包,根据底层协议进行初步的数据包过滤,进行TCP数据流重组后以一定格式存储入相应文件夹,以供数据分析模块读取。
(2)模块流程:网络数据采集模块流程如图1所示。
2.3.2网络数据解析模块设计
(1)模块功能
经网络数据采集模块采集并初步过滤后,网络数据以TCP流存入文件中,网络数据解析模块主要功能就是读取每个HTTP-POST方法的TCP流文件,从文件名中得出IP地址及端口等信息,然后读取文件内容,利用知识库中所记录的特征进行垃圾信息过滤,从而提取出所需的POST网络信息,然后将所得结果存入文件中,并将文件信息写入数据库中,以便前台页面进行调用查看。
(2)模块流程:网络数据解析模块流程如图2所示。
在网络数据解析模块中,先在网络数据采集模块的文件存储文件夹中读入重组的TCP流文件,解析文件名,获取IP地址信息后先放入内存中,然后解析POST头域,获取Host等信息,然后根据XML特征知识库来进行垃圾信息过滤,最后将过滤后的信息写入文件,文件命名不变,与重组文件命名相同,文件存储以不同的Host为文件夹分开存储。
2.3.3垃圾信息过滤模块设计
(1)模块功能:包括了对知识库的操作和知识特征的匹配。
(2)模块流程:XML知识库解析模块的流程如图3所示。
2.3.4 URL解码模块设计
(1)模块功能:主要功能便是将POST所带的数据进行URL解码,并对其中所带的中文信息进行中文编码解码,以得到正常格式的数据。
(2)模块流程:URL解码模块流程如图4所示。
URL解码开始时,将编码的数据以字符为单位读入模块函数:
1)当读入的是百分号时,表示后边两个字符为汉字的编码,将这两个字符读入并解码,然后存入解码后的数据空间内。
2)当读入的不是百分号也不是字符串结束符时,说明读入的字符为英文字符,直接存入解码后的数据空间内即可。
3)当读入的是字符串结束符时,表明数据已经结束,将解码后的数据保存到一定的空间内,以供下一步的垃圾过滤。
3 展望
1)本文研究设计的基于知识库的网络信息采集及还原系统还有以下问题:
2)第一,据采集方案需要进一步优化。
3)第二,垃圾信息过滤机制需进一步完善。
4)第三,硬件上进行扩充,使系统扩展为分布式系统。
5)第四,对还原信息各类进行扩展。
6)第五,系统知识库需进一步完善。
参考文献:
[1] 赵伟光,Linux的网络流量监测[J],网络安全技术与应用,2015, (4):10-11.
[2] 孟晓林,多核系统减少内存干扰技术的研究[D],杭州电子科技大学,2016.
[3] 刘建炜,燕路峰,知识表示方法比较[J],计算机系统应用,2010.
关键词:网络信息;采集;还原
1 绪论
1.1背景与意义
随着信息交流方法的多元化,论坛,微博等成为被大众认可信息发布和社交网络平台。而不法分子利用网络传输色情、暴力等信息,这些信息给人们尤其是未成年人带来的危害是无法估量的。必须采取措施对网络这把“双刃剑”进行监控与管制。正是基于这样的背景,本文提出了自己的研究思路和方法,通过对网络用户传输的网络信息的监测,对网络舆情进行分析,以防范网络给人带来便利的同时破坏我们的生活。
1.2本文研究内容
1.2.1网络数据采集技术研究
针对本文所研究的网络信息采集及还原系统的应用需求,对网络数据采集方案进行深入分析研究后,制定出了适合本文系统的采集方案。
1.2.2网络数据还原技术研究
在网络数据还原部分,针对不同网站的POST传输特征不同这一特点,分析提取了HTTP-POST网络特征,以此建立了POST传输行为的XML知识库,基于知识库对采集到的信息进行分析和过滤,并设计了相应的URL解码及中文解码方案对采集到的信息进行还原。
2 网络信息采集及还原系统设计与实现
2.1概述
整个系统采用B/S构架模式,管理员可以以任何一台可连接到服务器的远端主机作为客户端,登陆Web页面进行查看系统监测结果,而服务器端实现网络数据采集、信息还原、垃圾过滤及文件管理等核心功能。
2.2系统总体框架及流程
本系统可以分为两大部分,网络数据采集部分和网络数据解析部分,这两部分采用了伪分布式处理结构,而在网络数据解析部分中又用到了利用知识库进行垃圾信息过滤和URL解码。
2.3系统模块设计
本文系统可分为四个模块:网络数据采集模块、网络数据分析模块、垃圾信息过滤模块与URL解码模块。
2.3.1网络数据采集模块设计
(1)模块功能
网络数据采集模块采用libnids库的API架构,主要功能是捕获局域网出口处的网络数据包,根据底层协议进行初步的数据包过滤,进行TCP数据流重组后以一定格式存储入相应文件夹,以供数据分析模块读取。
(2)模块流程:网络数据采集模块流程如图1所示。
2.3.2网络数据解析模块设计
(1)模块功能
经网络数据采集模块采集并初步过滤后,网络数据以TCP流存入文件中,网络数据解析模块主要功能就是读取每个HTTP-POST方法的TCP流文件,从文件名中得出IP地址及端口等信息,然后读取文件内容,利用知识库中所记录的特征进行垃圾信息过滤,从而提取出所需的POST网络信息,然后将所得结果存入文件中,并将文件信息写入数据库中,以便前台页面进行调用查看。
(2)模块流程:网络数据解析模块流程如图2所示。
在网络数据解析模块中,先在网络数据采集模块的文件存储文件夹中读入重组的TCP流文件,解析文件名,获取IP地址信息后先放入内存中,然后解析POST头域,获取Host等信息,然后根据XML特征知识库来进行垃圾信息过滤,最后将过滤后的信息写入文件,文件命名不变,与重组文件命名相同,文件存储以不同的Host为文件夹分开存储。
2.3.3垃圾信息过滤模块设计
(1)模块功能:包括了对知识库的操作和知识特征的匹配。
(2)模块流程:XML知识库解析模块的流程如图3所示。
2.3.4 URL解码模块设计
(1)模块功能:主要功能便是将POST所带的数据进行URL解码,并对其中所带的中文信息进行中文编码解码,以得到正常格式的数据。
(2)模块流程:URL解码模块流程如图4所示。
URL解码开始时,将编码的数据以字符为单位读入模块函数:
1)当读入的是百分号时,表示后边两个字符为汉字的编码,将这两个字符读入并解码,然后存入解码后的数据空间内。
2)当读入的不是百分号也不是字符串结束符时,说明读入的字符为英文字符,直接存入解码后的数据空间内即可。
3)当读入的是字符串结束符时,表明数据已经结束,将解码后的数据保存到一定的空间内,以供下一步的垃圾过滤。
3 展望
1)本文研究设计的基于知识库的网络信息采集及还原系统还有以下问题:
2)第一,据采集方案需要进一步优化。
3)第二,垃圾信息过滤机制需进一步完善。
4)第三,硬件上进行扩充,使系统扩展为分布式系统。
5)第四,对还原信息各类进行扩展。
6)第五,系统知识库需进一步完善。
参考文献:
[1] 赵伟光,Linux的网络流量监测[J],网络安全技术与应用,2015, (4):10-11.
[2] 孟晓林,多核系统减少内存干扰技术的研究[D],杭州电子科技大学,2016.
[3] 刘建炜,燕路峰,知识表示方法比较[J],计算机系统应用,2010.