论文部分内容阅读
随着互联网的高速发展,信息共享更加便利,但与此同时,暴力、色情、反动等不良信息也随之泛滥。如何有效监控互联网上的信息,过滤其中的不良信息,确保互联网内容的安全健康,是当前一个重要的研究热点。本文在研究网络信息审计技术和文本过滤技术的基础上,设计并实现了一个基于网络信息审计的网页文本过滤系统。首先,本文实现了基于IP Queue的实时网页文本过滤模块。该模块运行在IPCG网关设备上,通过Linux系统Netfilter/iptables框架下的IP Queue机制捕获网络数据包,对流经网关的HTTP报文实时监控,主要包括两个子模块:分别是HTTP请求报文过滤和HTTP响应报文过滤。请求报文过滤模块主要分析IP和URL,使用黑白名单实现高效率的过滤;响应报文过滤模块主要分析网页报文中是否包含非法关键词。其次,针对离线过滤,本文提出了一种基于二元模型的分层文本过滤方法。在训练文本集中以文档频率和卡方检验相结合的方法抽取非法关键词集合,根据制定的策略,筛选出测试文本集中的非法文本和一些包含非法关键词的合法文本;在筛选出的文本中,经过分词、去除停用词等处理后,选取二元词串作为特征;根据特征进行文本向量化,再以支持向量机分类器区分文本类型,实现非法文本的过滤。再次,本文提出一种基于关键词抽取二元词串作为特征的方法。该方法基于非法关键词的上下文,在一定大小的抽取窗口内抽取包含非法关键词的二元词串作为候选特征,再以卡方检验公式对这些候选特征进行评估,选取预定数目的最佳特征作为最终的特征。该方法保留了二元词串的较强类型分辨能力的特点,同时降低了特征的数据稀疏程度。最后,在实验环境下架构了一个完整的网页文本过滤系统,将实时过滤和离线分析紧密地结合在一起。实验表明,系统既满足实时性要求,也保证较高的准确度。