论文部分内容阅读
互联网信息内容安全过滤(Information Content Security Fiiter)是指从海量的WEB文本中识别出含有不良内容的非法文本,以将其屏蔽。目前它已经成为信息过滤的一个新的研究领域。 本文研究了内容安全过滤中的若干关键技术,包括文本表示,非法文本的识别算法及对文本动态学习的实现等。本文还设计了一个信息内容安全过滤(ICSF)实验系统,实现了对非法文本的训练、规则的提取、更新以及对新文档的判别等功能。 本文的工作和创新主要体现在以下几个方面: 1.系统地分析了非法文本的特点,总结了非法文本内容和用词的特征,并给出其形式化表示。 2.通过基于规则的算法实现信息内容过滤。我们采用实例学习方法,在大量训练实例的基础上,将改进的用于逻辑规则提取的OCAT挖掘算法用于文本分类规则的提取,分别产生针对正例集和反例集的识别规则,对文本进行二分分类。同时,通过分析非法文本所特有的用词形式的特征,给出判别规则来计算文本含有非法文本用词特征的可信度。最后,结合训练集的提取规则与特殊词规则,对新文档进行判别。 3.对不同规则采用不同的更新算法,实现对新出现的非法文档的自动识别。我们根据误判文档的反馈信息修改逻辑规则,使其不断增加对新非法文档的识别能力,实现规则的增量式学习。并提出了特殊词自动识别算法,对出现在新的非法文本中的特殊词进行自动识别,以扩展作为特殊词识别规则基础的特殊词表,实现对特殊词识别规则的更新。