论文部分内容阅读
随着社会的发展,互联网已成为信息传播和获取的重要平台,为我们进行信息交流提供了极大的便利。与此同时,互联网也成为发布虚假信息、滥发商业广告、随意侮辱他人、滥用信息技术、进行网络欺诈等犯罪行为滋生的载体,因此web信息过滤成为当前网络安全领域亟待解决的问题之一。考虑到web信息具有页面级数大、信息隐蔽等特点,本文采用粗糙集相关知识来解决web信息过滤的问题。按照信息过滤的流程,web信息过滤包括信息采集、构建用户需求模板、属性约简、规则提取、信息过滤以及主动学习等过程,本文对构建用户需求模板、属性约简及规则提取三个部分进行了重点研究。在样本选择过程中,传统的约简算法采用的样本实例数和维数通常较低,缺乏真实性,因此本文利用网络爬虫从互联网采集真实的页面作为算法的样本。在构造用户需求模板阶段,本文首先提出模糊分词思想并与过去的扫描分词法结合形成二次分词,从而更好地挖掘隐蔽的非法信息;其次为了缓解二次分词的较大系统压力,本文提出主从式分词系统,利用map/reduce思想将分词任务分解到多个子结点同时处理;最后整理TXT词汇文本构造向量空间模型。在属性约简阶段,针对样本信息量大且不同类别样本间特征离散严重等特点,本文提出了一种同属性约简算法;该算法构造特征矩阵,利用重叠率有效地达到降维目的。在规则提取阶段,分析前人算法并结合同属性约简算法得到的约简结果特点本文提出同值约简算法,该算法去除决策表中冗余属性值,并且去除其中的重复和蕴含关系得到最终的过滤规则。对于规则匹配,本文深化扩展传统的布尔逻辑模型true/false表达,引入二进制位运算思想,大大提高了匹配效率同时又不会丢失关键特征(即标记为1的二进制位)。最后本文将上述流程封装成过滤层嵌入到开源框架carrot2中,新增过滤功能完善其原来单纯的搜索功能。另外由于过滤规则库较大,本文提出对二进制规则串切割并建立索引,提高了查找和匹配的效率。