基于粗糙集理论的web信息过滤技术研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:aaatzh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的发展,互联网已成为信息传播和获取的重要平台,为我们进行信息交流提供了极大的便利。与此同时,互联网也成为发布虚假信息、滥发商业广告、随意侮辱他人、滥用信息技术、进行网络欺诈等犯罪行为滋生的载体,因此web信息过滤成为当前网络安全领域亟待解决的问题之一。考虑到web信息具有页面级数大、信息隐蔽等特点,本文采用粗糙集相关知识来解决web信息过滤的问题。按照信息过滤的流程,web信息过滤包括信息采集、构建用户需求模板、属性约简、规则提取、信息过滤以及主动学习等过程,本文对构建用户需求模板、属性约简及规则提取三个部分进行了重点研究。在样本选择过程中,传统的约简算法采用的样本实例数和维数通常较低,缺乏真实性,因此本文利用网络爬虫从互联网采集真实的页面作为算法的样本。在构造用户需求模板阶段,本文首先提出模糊分词思想并与过去的扫描分词法结合形成二次分词,从而更好地挖掘隐蔽的非法信息;其次为了缓解二次分词的较大系统压力,本文提出主从式分词系统,利用map/reduce思想将分词任务分解到多个子结点同时处理;最后整理TXT词汇文本构造向量空间模型。在属性约简阶段,针对样本信息量大且不同类别样本间特征离散严重等特点,本文提出了一种同属性约简算法;该算法构造特征矩阵,利用重叠率有效地达到降维目的。在规则提取阶段,分析前人算法并结合同属性约简算法得到的约简结果特点本文提出同值约简算法,该算法去除决策表中冗余属性值,并且去除其中的重复和蕴含关系得到最终的过滤规则。对于规则匹配,本文深化扩展传统的布尔逻辑模型true/false表达,引入二进制位运算思想,大大提高了匹配效率同时又不会丢失关键特征(即标记为1的二进制位)。最后本文将上述流程封装成过滤层嵌入到开源框架carrot2中,新增过滤功能完善其原来单纯的搜索功能。另外由于过滤规则库较大,本文提出对二进制规则串切割并建立索引,提高了查找和匹配的效率。
其他文献
随着信息化的普及,当前的存储数据量日趋庞大。对于这庞大的信息数据,从传统的单机存储逐渐发展到现在集群存储,数据存储规模也越来越大。但是数据也具有自己存储周期,数据的
随着互联网技术的迅速发展,面向服务的体系结构得到迅速发展和广泛的应用。Web服务作为实现面向服务体系结构的重要技术以其良好的封装性,松耦合性以及跨平台性成为分布式计
磁暴发生时的磁场波动会对电网产生地磁感应电流(GIC),地磁感应电流会对变压器产生巨大的影响,严重的会导致变压器烧毁甚至整个电网的瘫痪。因此对GIC进行实时监测、分析和研
IPv6协议具有更大的地址空间,良好的扩展性等优点。随着IPv6网络在我国高等院校开始大规模应用,针对IPv6网络的安全问题将会不断出现;如何有效的检测出IPv6网络中的入侵行为成为
随着组播应用的不断发展,其安全问题越来越受到人们的重视,组密钥管理也逐渐成为研究的热点。组密钥管理方案大致分为三类:集中式、分层式和分布式。无论哪种类型,传统的组密钥管
随着信息化建设的不断推进,网络安全问题也不断突显,已经引起了企业的高度重视,越来越多的企业开始进行网络安全风险评估并制订和部署整体安全策略。网络安全风险评估有助于
近些年随着智能手机的普及和可穿戴设备的崛起,移动设备的数量呈指数级增长,移动应用的功能也趋于复杂化。尽管智能设备的硬件配置也在迅速发展,但仍然难以满足人们对移动应
多线程离散事件模拟语言(Multithreaded Discrete Event Simulation Language,下文均简称MDESL)是一种类似于硬件描述语言Verilog的基于统一程序理论(UTP)的语言,由朱惠彪教
计算机网络的发展趋势正在由独立的网络结构向分布式的多域自治网络演进。网元的工作模式已不再是“孤岛式”的,而演化成与其它网元进行分布式协同工作的模式,认知网络的出现,充
电容层析成像(Electrical Capacitance Topography,ECT)技术是一种基于电容敏感机理的过程成像技术,目前在解决工业两相流检测领域成为过程层析成像技术发展的主流和研究热点