论文部分内容阅读
随着Internet的日益普及和迅猛发展,人们对网络的依赖程度越来越高,但Internet的开放性、平等性、无界性等特征又导致了网络的无限制滥用,大量的垃圾及敏感信息充斥于网络,如何滤除这些垃圾及敏感信息,消除网络带来的消极及负面影响已成为Internet信息服务须解决的关键问题之一。解决这一问题的最有效技术手段就是进行信息过滤。文章在研究信息过滤一般原理及常用网页过滤技术的基础上,以需求为驱动,从功能的角度出发,提出并构建了一个基于主题的网页过滤体系,并对该体系进行了较为深入的研究,主要的研究工作和取得的创新成果有以下几个主要方面:首先,分析了目前Internet中传播的各种信息流,根据过滤需求对网络中需要过滤的信息进行了分类,明确定义了研究的主题领域,在此基础上,设计了一个面向主题的信息过滤系统TSIFS,该系统采用分层的网页过滤策略,在信息过滤的分类方案中引入了神经网络技术,利用神经网络的学习能力及适应性弥补一般过滤机制的不足,从而可以提高了网页过滤的准确性。其次,为了处理的方便性,通过归一化策略将Web页面包含的多类型数据变换为文本信息进行处理,在这一变换过程中结合了主题信息的过滤特征,利用主题专业词汇及人工编辑辞典完成了文本向量的表示,设计了一个新的特征词权重函数;另外还提出并设计了一种页面字符编码的判别算法。再次,利用BP网络构建了基于神经网络的过滤信息分类模型,构造了TSIFS中的过滤引擎处理机制,并对涉及的输入向量正规化、参数选择等关键问题进行了重点讨论。最后,文章通过仿真实验对构造的基于主题的过滤系统进行了可行性、有效性、准确性等方面的实验验证和分析。