互联网信息内容安全过滤方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:hard_158
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网信息内容安全过滤(Information Content Security Fiiter)是指从海量的WEB文本中识别出含有不良内容的非法文本,以将其屏蔽。目前它已经成为信息过滤的一个新的研究领域。 本文研究了内容安全过滤中的若干关键技术,包括文本表示,非法文本的识别算法及对文本动态学习的实现等。本文还设计了一个信息内容安全过滤(ICSF)实验系统,实现了对非法文本的训练、规则的提取、更新以及对新文档的判别等功能。 本文的工作和创新主要体现在以下几个方面: 1.系统地分析了非法文本的特点,总结了非法文本内容和用词的特征,并给出其形式化表示。 2.通过基于规则的算法实现信息内容过滤。我们采用实例学习方法,在大量训练实例的基础上,将改进的用于逻辑规则提取的OCAT挖掘算法用于文本分类规则的提取,分别产生针对正例集和反例集的识别规则,对文本进行二分分类。同时,通过分析非法文本所特有的用词形式的特征,给出判别规则来计算文本含有非法文本用词特征的可信度。最后,结合训练集的提取规则与特殊词规则,对新文档进行判别。 3.对不同规则采用不同的更新算法,实现对新出现的非法文档的自动识别。我们根据误判文档的反馈信息修改逻辑规则,使其不断增加对新非法文档的识别能力,实现规则的增量式学习。并提出了特殊词自动识别算法,对出现在新的非法文本中的特殊词进行自动识别,以扩展作为特殊词识别规则基础的特殊词表,实现对特殊词识别规则的更新。
其他文献
城市电网是保证城市运营和发展的最重要的基础市政设施,其应急能力是整个城市的基本保证。应急电源是城市电网供电系统有效的应急措施之一,论文将供电可靠性和经济性紧密结合
本文详细介绍探地雷达(GroundPenetrating/ProbingRadar简称GPR)回波信号采集和存储接口板设计的方法、相应的上位机软件编程和成像所应用的技术。数据采集和存储板设计,使用
无线局域网是20世纪90年代计算机网络和无线通信技术相结合的产物,它使用无线信道接入网络,具有安装方便、高数据速率和可移动性等特点,其应用范围越来越广泛。随着无线局域网的
随着网络规模的日益扩大,用于异常发现的传统入侵检测系统并不能简单地应用到大规模的网络环境中。基于报文级别的捕获、还原、匹配的传统入侵检测系统效率无法满足要求。而
随着互联网的迅速发展,多媒体业务也得到了极大的发展。传统的Internet网络是面向非实时的数据通讯而设计的,它仅提供尽力而为的服务方式,在这种服务方式下,所有业务流公平地竞争
SIP协议作为下一代网络最重要协议之一,已被广泛应用于VoIP系统中。为了解决公网IP地址匮乏以及网络安全等问题,企业网一般都使用了NAT和防火墙技术。虽然NAT技术可以很好的
作者分类是按照作者的写作风格将作品分类的过程。作者分类是文本分类的一种。风格特征集合的选择是作者分类的关键问题。 本文尝试了前人提出并受到较为普遍认同的基于标
随着网络技术的发展,网上的资源成指数级的增长,如何在Internet这样的海量信息资源中迅速搜索和查找到用户感兴趣的信息已成为网络上必不可少的需要。已经有象Google和百度这样
近年来随着Internet的飞速发展,网络带宽的成倍增加以及计算机计算能力的大大提高,对等网络迅速成为计算机界关注的热门话题之一。对等网络通过对等和分布式的方式,在网络中
C/C++语言开发者追求的是语言的高效性、灵活性,为此在不同程度上忽略了语言的安全性。而且由于程序员能力上的不够或者粗心大意,严重地威胁着软件的安全性。本文主要研究的是C/C