论文部分内容阅读
随着网络的不断普及,越来越多的应用在网络上实现。网络本身就是一个信息的集合体,从网络上可以获得大量的信息。但如何区分这些信息的好坏,以及如果避免有害信息的出现,日益成为大家讨论和研究的主要课题。通过网络信息的过滤无疑可以达到这种目的。但现在采用的主要网络信息过滤方式还是简单的关键词,地址库,以及针对协议、端口的过滤方式。这些过滤方式主要通过制定详细繁琐的过滤规则来实现,其特点是实现简单,实时性强——这一点对于网络上的应用来说是很重要的;但它的一个最大的缺点就在于过滤过于规则化,无法辨别文档实际含义,只要满足过滤规则就会被过滤掉,无法满足现在过滤需求。本课题针对目前教育网中存在的网络过滤需求,提出了利用信息检索技术,以及人工智能技术相结合的方案实现网络上的智能过滤。 本文首先对国内外的信息安全以及网络过滤的研究现状作了介绍,提出了现有网络过滤技术的不足。随后探讨了信息检索,人工智能,遗传算法等主要技术的特点及应用,并详细研究了它们对实现网络过滤的智能化方面的可能性。接下来从设计思想入手,采用向量空间模型和BP神经网络算法作为文档智能分析的手段,提出了一个实现网络智能过滤的系统架构。其间兼顾网络上应用的特点,提出了基于无指导的最大匹配分词算法。由于过滤系统中管理员确定的过滤关键词并不一定满足过滤要求,本文提出利用遗传算法来优化过滤关键词,并给出了相应的模型和算法。 结合信息检索,人工智能和遗传算法,本文设计并实现了一个基于向量空间模型的网络智能过滤系统。本系统可以作为传统过滤系统的辅助,在传统过滤方法的基础上实现对特殊文档的智能过滤,同时实现对过滤要求的优化,使系统达到最大的过滤准确性。