论文部分内容阅读
随着互联网的进一步发展,合法和非法的信息大量充斥其间,基于内容的信息安全已经成为安全领域的一个新焦点。为了给用户能提供健康的、安全的信息,就有必要对非法网页进行过滤处理。在这一领域,已经有许多相关技术,由于汉语语言的特殊性,基于内容安全的中文网页过滤技术还有待进一步完善。 本文在对内容安全以及中文网页过滤技术发展现状分析的基础上,对其中两项关键技术——中文分词技术和过滤器技术,进行了详细讨论。构造了一个具有学习新词功能的中文分词系统,其性能较原有系统得到了提高。同时,应用概率模型和向量空间模型设计了两种过滤器算法,结合这两种算法的优点,构造了一个高性能的网页过滤器。最后,应用所设计的模型,完成了中文网页过滤系统的总体设计、实现和测试。 测试结果证明,由于提高了中文分词环节的精确度和过滤器环节的准确度,中文网页过滤系统的性能得到了进一步的提高。