基于知识库的网络信息采集及还原系统

来源 :电脑迷·中旬刊 | 被引量 : 0次 | 上传用户:ljy2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在网络日渐普及开放的今天一些不健康甚至是违法的网络信息,充斥着我们的校园网络。因此,针对当前对校园网络环境的净化需求,本文设计实现了一个基于知识库的网络信息采集及还原系统,供后续的分析处理,这对网络监管净化類系统提供了新的技术手段,具有重要的现实意义。
  关键词:网络信息;采集;还原
  1 绪论
  1.1背景与意义
  随着信息交流方法的多元化,论坛,微博等成为被大众认可信息发布和社交网络平台。而不法分子利用网络传输色情、暴力等信息,这些信息给人们尤其是未成年人带来的危害是无法估量的。必须采取措施对网络这把“双刃剑”进行监控与管制。正是基于这样的背景,本文提出了自己的研究思路和方法,通过对网络用户传输的网络信息的监测,对网络舆情进行分析,以防范网络给人带来便利的同时破坏我们的生活。
  1.2本文研究内容
  1.2.1网络数据采集技术研究
  针对本文所研究的网络信息采集及还原系统的应用需求,对网络数据采集方案进行深入分析研究后,制定出了适合本文系统的采集方案。
  1.2.2网络数据还原技术研究
  在网络数据还原部分,针对不同网站的POST传输特征不同这一特点,分析提取了HTTP-POST网络特征,以此建立了POST传输行为的XML知识库,基于知识库对采集到的信息进行分析和过滤,并设计了相应的URL解码及中文解码方案对采集到的信息进行还原。
  2 网络信息采集及还原系统设计与实现
  2.1概述
  整个系统采用B/S构架模式,管理员可以以任何一台可连接到服务器的远端主机作为客户端,登陆Web页面进行查看系统监测结果,而服务器端实现网络数据采集、信息还原、垃圾过滤及文件管理等核心功能。
  2.2系统总体框架及流程
  本系统可以分为两大部分,网络数据采集部分和网络数据解析部分,这两部分采用了伪分布式处理结构,而在网络数据解析部分中又用到了利用知识库进行垃圾信息过滤和URL解码。
  2.3系统模块设计
  本文系统可分为四个模块:网络数据采集模块、网络数据分析模块、垃圾信息过滤模块与URL解码模块。
  2.3.1网络数据采集模块设计
  (1)模块功能
  网络数据采集模块采用libnids库的API架构,主要功能是捕获局域网出口处的网络数据包,根据底层协议进行初步的数据包过滤,进行TCP数据流重组后以一定格式存储入相应文件夹,以供数据分析模块读取。
  (2)模块流程:网络数据采集模块流程如图1所示。
  2.3.2网络数据解析模块设计
  (1)模块功能
  经网络数据采集模块采集并初步过滤后,网络数据以TCP流存入文件中,网络数据解析模块主要功能就是读取每个HTTP-POST方法的TCP流文件,从文件名中得出IP地址及端口等信息,然后读取文件内容,利用知识库中所记录的特征进行垃圾信息过滤,从而提取出所需的POST网络信息,然后将所得结果存入文件中,并将文件信息写入数据库中,以便前台页面进行调用查看。
  (2)模块流程:网络数据解析模块流程如图2所示。
  在网络数据解析模块中,先在网络数据采集模块的文件存储文件夹中读入重组的TCP流文件,解析文件名,获取IP地址信息后先放入内存中,然后解析POST头域,获取Host等信息,然后根据XML特征知识库来进行垃圾信息过滤,最后将过滤后的信息写入文件,文件命名不变,与重组文件命名相同,文件存储以不同的Host为文件夹分开存储。
  2.3.3垃圾信息过滤模块设计
  (1)模块功能:包括了对知识库的操作和知识特征的匹配。
  (2)模块流程:XML知识库解析模块的流程如图3所示。
  2.3.4 URL解码模块设计
  (1)模块功能:主要功能便是将POST所带的数据进行URL解码,并对其中所带的中文信息进行中文编码解码,以得到正常格式的数据。
  (2)模块流程:URL解码模块流程如图4所示。
  URL解码开始时,将编码的数据以字符为单位读入模块函数:
  1)当读入的是百分号时,表示后边两个字符为汉字的编码,将这两个字符读入并解码,然后存入解码后的数据空间内。
  2)当读入的不是百分号也不是字符串结束符时,说明读入的字符为英文字符,直接存入解码后的数据空间内即可。
  3)当读入的是字符串结束符时,表明数据已经结束,将解码后的数据保存到一定的空间内,以供下一步的垃圾过滤。
  3 展望
  1)本文研究设计的基于知识库的网络信息采集及还原系统还有以下问题:
  2)第一,据采集方案需要进一步优化。
  3)第二,垃圾信息过滤机制需进一步完善。
  4)第三,硬件上进行扩充,使系统扩展为分布式系统。
  5)第四,对还原信息各类进行扩展。
  6)第五,系统知识库需进一步完善。
  参考文献:
  [1] 赵伟光,Linux的网络流量监测[J],网络安全技术与应用,2015, (4):10-11.
  [2] 孟晓林,多核系统减少内存干扰技术的研究[D],杭州电子科技大学,2016.
  [3] 刘建炜,燕路峰,知识表示方法比较[J],计算机系统应用,2010.
其他文献
图文并茂是小学语文教材的一个显著特点,几乎每篇课文都配有一幅或多幅图画,以适合小学生“形象思维”的需要,这有利于提高小学生学习语文的兴趣,更好地理解课文内容,培养观
期刊
为掌握吉林铁路地区饮水现状,保证饮水质量,笔者于2008年对该地区46户供水单位进行了调查。1对象与方法1·1对象吉林铁路地区46户供水单位,其中给水所18户、泵房28户。1·2方
主要探讨了职高计算机应用专业"3D MAX"专业课程的教学,基于教学方向、教学方法、引导策略和总结评价四个层面展开论述,以期为提升职高计算机教学质量而献计献策。
在讨论了低压供电在线监测和管理必要性的基础上,提出了一种基于单片机技术、Pocket PC技术和Web数据库技术的低压供电可靠性监测管理系统.该系统采用分布式监测-集中管理并
在清中期曲坛花雅争胜的时代背景下,文人戏曲逐渐走向衰微。吴中名士石韫玉的《花间九奏》杂剧和《红楼梦》传奇,在形式、思想和艺术上均带有文人戏曲的典型特征。其作品在自我
威塞克斯·赛克4×2轻型攻击车是英国推出的一种具有多种战术功能的高机动车,可执行远距离穿插、侦察、机场保护及设施防 Wessex Saikai 4 × 2 light attack vehicle is a
摘要:通信工程项目是电子工程中的一个重要分支,也是我国最重要的项目之一,它为我国的经济发展做出了巨大的贡献。但如今,随着科技水平的不断提高,市场经济需求的不断变化,传统的通信工程技术显得非常落后。本文主要从此角度出发,首先评价了网络计划技术的意义,其次对通信工程项目进度的管控进行了阐述,最终对网络计划技术在通信工程项目的应用和优化做了详细的分析。  关键词:通信工程;网络计划技术;技术优化  现如
利用调度自动化系统(SCADA)和管理信息系统(MIS),研究开发了一套输变电设施在线管理系统,基本实现了输变电设施可靠性的自动实时统计.着重介绍了该系统的判据、设计原则、结
诗歌理论批评,属于高层次的审美活动。在朝鲜古典文学史上,朝鲜诗家创作的古典汉文诗话蕴涵着丰富的诗歌理论。本论文试图从诗歌理论批评这一视角,以朝鲜古典诗话对批评方法的运
摘要:计算机网络随着信息科学技术的普及逐渐成为人们日常生活的重要组成部分,但是在计算机网络推动社会进步的同时,网络系统因具有开放性也面临着严重的信息安全威胁。本文通过分析计算机网络管理中存在问题,提出相关安全技术措施,希望能够促进计算机网络技术更加成熟,使其能够充分发挥自身作用。  关键词:计算机;网络管理;安全技术  随着计算机技术的迅速发展,我国已经逐步进入信息化时代,计算机网络的普及提高了人