论文部分内容阅读
近几年来,随着信息技术与信息产业的迅速发展,特别是国际互联网的迅速发展,互联网上的应用日趋增多。随着网络黑客与计算机犯罪活动的猖獗,人们对于网络与系统安全展开了大量研究,但对于网上媒体信息内容的安全问题,只是在近年来才逐渐得以重视。同时巨大的开放信息源也使一些恶意的和不良(反动、恐怖、色情等等)的内容信息趁机而入,成为用户获取有效信息的严重障碍。为保护国家安全、稳定,同时保护网络用户远离有害信息的侵扰,以及控制对这些信息的访问,有必要采取有力措施对这类信息进行监控,同时也有必要为运行Web服务的各种组织,提供对此类信息的访问加以监控的技术和服务。为此开发先进的文本信息安全监控技术是一项紧急而又重要的课题。
因此,针对这一问题,本文结合自然语言理解、中文信息处理、粗糙集理论等学科的相关知识,通过分析各类不良信息的特征,结合本实验室文本信息处理目前研究进展,研究了适合不良文本信息过滤的概念网分析模型、过滤算法等。
本文首先介绍了互联网发展过程中所面临的安全问题,分析了文本信息过滤的概念及意义,以及针对不良文本信息,国内外对其进行过滤监控的研究现状,并在针对现有过滤监控技术的缺点的基础上,提出了将概念网技术用于信息监控的必要性和可行性,为给出本文课题的背景与目标提供了依据。在接下来的章节中,本文在提出信息内容过滤监控必要性的基础上,主要介绍了现有的文本信息过滤监控方法,并且分析了这些现有方法的性能,针对这些方法的缺点,提出了基于概念网的文本过滤监控方法。然后引入介绍文本的概念表示形式及与语义分析相关知识,在介绍了与概念网相关的基础知识后,通过分析现有的两个典型的概念网的构造方式,为后面概念网的构造提供了参考。
围绕概念网的构建问题,本文接下来主要介绍了常用的文本处理技术,包括对中文文本的分词等预处理技术及中文文本的表示和特征提取方法,权重计算方法等,并在此基础上,通过分析不同的文本处理技术的实现方法,选取了在实现上比较有优越性的处理方法作为文本概念表示方法的前期处理方式,并且提出了在本文中具体的概念抽取方法的实现。在已有的文本概念表示技术的基础上,提出了一种多关系模糊值动态约束性概念网络模型,并详细的介绍了该概念网络模型的构建,最后分析了这种新的概念网的特点。
在已构建好的概念网模型的基础上,本文通过研究目前通用的文本过滤分析技术:基于规则的文本过滤分析方法,和基于统计的文本过滤方法。并指出了这些方法的性能。随后,根据前面章节概念网的模型提出了基于多关系模糊值动态约束性概念网络的不良文本过滤监控方法,从而对截获的文本利用概念表示来进行分类判决。最后,本文提出了一种实现概念网对文本过滤监控的方法,并且通过实验来验证了这一方法的可行性。实验结果表明,经过概念网的分析,基本上保留了文本原有的语义关系,在训练样本集和测试样本集上都得到了比较满意的过滤效果。