基于网络信息审计的文本过滤的研究与实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户:ikyug
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,信息共享更加便利,但与此同时,暴力、色情、反动等不良信息也随之泛滥。如何有效监控互联网上的信息,过滤其中的不良信息,确保互联网内容的安全健康,是当前一个重要的研究热点。本文在研究网络信息审计技术和文本过滤技术的基础上,设计并实现了一个基于网络信息审计的网页文本过滤系统。首先,本文实现了基于IP Queue的实时网页文本过滤模块。该模块运行在IPCG网关设备上,通过Linux系统Netfilter/iptables框架下的IP Queue机制捕获网络数据包,对流经网关的HTTP报文实时监控,主要包括两个子模块:分别是HTTP请求报文过滤和HTTP响应报文过滤。请求报文过滤模块主要分析IP和URL,使用黑白名单实现高效率的过滤;响应报文过滤模块主要分析网页报文中是否包含非法关键词。其次,针对离线过滤,本文提出了一种基于二元模型的分层文本过滤方法。在训练文本集中以文档频率和卡方检验相结合的方法抽取非法关键词集合,根据制定的策略,筛选出测试文本集中的非法文本和一些包含非法关键词的合法文本;在筛选出的文本中,经过分词、去除停用词等处理后,选取二元词串作为特征;根据特征进行文本向量化,再以支持向量机分类器区分文本类型,实现非法文本的过滤。再次,本文提出一种基于关键词抽取二元词串作为特征的方法。该方法基于非法关键词的上下文,在一定大小的抽取窗口内抽取包含非法关键词的二元词串作为候选特征,再以卡方检验公式对这些候选特征进行评估,选取预定数目的最佳特征作为最终的特征。该方法保留了二元词串的较强类型分辨能力的特点,同时降低了特征的数据稀疏程度。最后,在实验环境下架构了一个完整的网页文本过滤系统,将实时过滤和离线分析紧密地结合在一起。实验表明,系统既满足实时性要求,也保证较高的准确度。
其他文献
随着计算机技术和信息技术的飞速发展,医疗信息系统间的互联互通和信息共享也变得越来越重要。在医疗卫生服务过程中,大家迫切希望通过建立适用共享的卫生信息系统,使医疗服务人
学位
随着汽车行业的迅速发展,车标识别在智能交通,道路监管,安全追踪以及车辆服务等领域的应用价值日益凸显。针对目前车标识别的方法中存在的定位精度低、识别效率低等问题,本文
伴随着智能手机的快速普及,智能手机恶意APP的数量也与日俱增。恶意行为代码的二次复用开发、恶意APP的自动生成技术使得具有恶意行为的APP开发效率大大提高,恶意程序的数量
现代化科技的飞速发展,使人脸识别技术受到越来越多的重视。作为人脸识别的第一步——人脸检测,已成为计算机视觉和模式识别领域中最活跃的研究课题之一。本文详细介绍了人脸
随着互联网的发展,P2P作为一种重要的分布式技术已经在共享文件、对等计算、协同工作等多个领域中得到了越来越多的应用。P2P网络越来越受到人们的重视,而安全问题是影响P2P
随着SSH2框架越来越受到程序员的青睐,并且已经成为当今大型应用软件的首选WEB技术。日志记录功能是应用系统不可缺少的一部分,但现有的日志插件不仅与应用程序处于紧耦合状
目前,传统互联网络IP地址匮乏、地址二义性等问题日益凸显,为解决这种现象提出了 “未来网络”的概念。命名数据网络(Nameddatanetwork, NDN)作为未来网络最有潜力的候选方案
无线传感器网络作为一种新的信息获取和处理技术,在军事、安全监视、生态环境监测、医疗等领域具有广泛的应用前景。覆盖是衡量无线传感器网络服务质量的重要指标。覆盖问题
最近虚拟化技术经历了一个快速发展的时期,他们为用户节省了大量的硬件资源的开销。这项技术为提供数据中心、网站服务器等需要大量硬件服务器的企业提高了硬件资源的利用率,并
在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。K-近邻(KNN)是一种重要的文本自动分类方法,能够处理大规模数据,且具有较高