论文部分内容阅读
随着信息时代的来临,互联网上的海量信息给人们的工作、学习、生活带来了诸多便利,但是网络上还充斥着许多含有色情、反动、暴力等内容的敏感信息,对青少年的成长甚至对社会秩序的安定有序带来不可忽视的威胁。网络信息监测与封堵技术就是针对这一社会现象,从海量的Web文本中识别出敏感信息,并将其封堵的技术。为了营造一个绿色的网络环境,本课题在研究了数据包捕获分析原理以及信息过滤技术的基础上,将其应用到敏感信息封堵技术上来。利用WinPcap实现在Windows平台上对网络数据包的捕获,利用TCP/IP的封装原理,自下而上的对数据包进行协议解析,对Web文本信息进行还原。为了提高系统的性能以及敏感信息的封堵效率,本系统结合了基于IP地址过滤、关键词过滤和基于文本分类过滤的分级过滤策略。本课题提出了合法IP地址数据库优先的概念降低了系统的误判率,提高了系统的整体性能。基于文本分类过滤策略的基础是信息过滤技术,本文在研究了国内外信息过滤发展现状的基础上,采用向量空间模型对Web文本进行数学抽象,并使用KNN(K近邻法)文本分类算法识别敏感信息文本并进行封堵。使用国际通用的过滤性能评价方法对实验结果进行评估,评估结果显示本系统的过滤效果达到了比较令人满意的程度。如果该Web文本确定为含有敏感信息,则关闭TCP连接,以达到封堵敏感信息的目的。