论文部分内容阅读
作为互联网的重要应用,网页浏览一直受到广大网民的青睐。但是互联网在给大家带来便利的同时,无用信息和不良网页问题也日益严峻。这类网页不仅耗费网络带宽和计算机时空开销,而且不良信息会对用户的身心健康造成严重的干扰。
网页过滤系统旨在帮助用户屏蔽无用和不良的网页信息。目前经常采用的网页过滤技术一般包括地址过滤、规则过滤以及敏感词过滤等。传统的过滤方法简单快速,但是对健康网页的误判率还较高。另外一个思路就是从网页的文本内容入手,使用文本分类、信息过滤的算法,在训练网页集合上学习网页分类器来进行网页过滤。由于网页过滤系统通常是在线式的应用环境,在将文本分类算法引入到网页过滤中时,往往很难在过滤的准确度和处理的实时性上达到平衡。
本文构建了基于混合模式的网页过滤系统,将传统的基于网址过滤和敏感词过滤的方法与基于文本分类的过滤方法结合起来。文章重点讨论了特征量选取、网页结构化信息利用、文本分类算法组合等方面的改进措施。实验表明这种模型在保持易于实现的特点的同时,在速度和准确度方面都有不同程度的提高。