论文部分内容阅读
互联网Internet的高速发展,已经使其成为覆盖范围最广、规模最大的信息网络。但是,在网络时代,人们在充分享受信息共享所带来的便利的同时,也不可避免的受到了“垃圾信息”、“有毒信息”的困扰,如何帮助人们在面对庞大的数据海洋时能够去其糟粕、取其精华,成为网络研究领域的一个重要问题。本文所设计的信息过滤系统,主要针对的是网络上的主机所接收到的Web数据,主要的研究工作如下:1.对现有的信息过滤技术进行了探讨分析。本文首先阐述了信息过滤技术的发展历程以及研究现状,介绍了其中主要的关键技术。分析了目前各种信息过滤模型所存在的不足,如过滤准确率差、处理速度慢、灵活性差等。2.对信息过滤系统的样本库提出了优化方案。对于一个信息过滤系统,组织一个完整、可靠、准确的信息样本库上其主要任务之一。因此,本文提出,使用数据挖掘中的聚类分析方法,对样本库进行自动组织、自动分类,减轻系统管理负担,提高运行效率。3.对信息过滤系统的文本归类过程进行了优化。信息过滤的最终目的是确定源信息的性质,以决定是否将其拦截。因此,过滤系统的另一个核心任务就是对比源信息与信息样本。本文提出,将对比过程划分为两个阶段,即确定主题阶段和确定性质阶段。收到源信息后,首先采用数据挖掘中的贝叶斯分类方法确定其主题,然后采用KNN文本分类方法确定其性质。通过这种策略,分阶段的处理收到的源信息,提高系统准确性和灵活性。4.建立基于数据挖掘技术的信息过滤系统框架并进行了设计和实现。以数据挖掘技术和网络信息处理的相关核心技术为基础,提出一种分层次、分策略的网络信息过滤系统框架,给出了该框架的结构。当前,对网络数据的过滤主要是针对web、网络寻呼机等网络应用。因此,本文设计了一种在传输层和应用层分别进行信息过滤的方案,并采用诸如WinsockSPI等相关技术进行了实现。实验表明,该系统能够根据用户的策略,在指定范围或级别下有效的过滤主机所接收到的网络信息。在正确性、可靠性以及过滤效率等方面,有着良好的表