论文部分内容阅读
巨大的开放型网络,在给人们带来需要信息的同时,一部分有害信息也乘虚而入。由于互联网所具有的开放性,其上传播的内容不能像传统媒体那样由专门的机构审核后再发布,且其内容的传播速度要比传统媒体要快得多。网上色情、暴力、西方的政治攻击、反动言论等各种有害不良信息时有传播,这些问题的出现,对于国家的安定团结,社会、经济等诸多方面的稳步健壮发展都有极为不利的影响,如果不能有效加以监控管理,过滤掉这些有害信息,将给社会带来很大的损害。因此,与此相关的有效的网上内容安全监控管理措施是极其必要的。互联网上信息传播以文本信息为主。目前的互联网不良文本信息监控研究多是基于统计或关键词过滤,主题性信息过滤大多采用基于统计的文本过滤技术,利用文本特征项作为文本的表示,依据模板和文本所拥有的共同项或概念的多少,作为匹配的基础。这样的优点是速度快,可实现好。然而单纯的关键词过滤分析缺乏必要的语义分析,对文本的理解停留在字和词的层次,而不能理解文本信息的含义。对于含有同样关键词的两段文本,其作者的倾向以及要表达的意思完全有可能南辕北辙,因此对于文本信息的监控过滤,尤其是带有倾向性色彩的文本监控,需要进一步深入的研究。本文的主要内容以概念网为基础,试图构建这样一个系统结构,它的作用是对互联网的不良信息从对句子的语意分析的层次上进行监控和过滤。概念网把具体的字和词转化为抽象的概念,便于研究语义关系。本文做的工作就是从待测文本中提取能代表文本特征的句子,并将句子进行分词,然后提取出其主干抽象成概念。一个句子的特征概念被集合在一起形成一个概念集,作为对该句子文本信息的表示。将若干个这样的概念组聚合在一起,并建立它们相应的关系,构架出了概念网。以构架成的概念网作为工具,形成互联网不良文本过滤系统,从而实现不良信息的监控过滤。本文首先提出互联网文本信息过滤的概念及意义,并介绍了国内外对网络不良信息进行过滤监控的研究成果。然后介绍了概念和格语法等基础知识以及预处理技术。在此基础上,本文提出了概念网的构建模型及算法,并介绍了基于概念网的网络不良文本信息过滤方案。最后通过实验验证了该过滤系统的可行性。