论文部分内容阅读
随着互联网上的信息交换越来越频繁,一些负面的影响也随之而来。例如各种迷信、色情、暴力和其他非法信息的传播,内部网中敏感信息的泄漏以及各种隐藏在网页和邮件中的非法攻击等,都已成为了人们日益关注的焦点问题。由于上述问题都属于基于内容的攻击形式,传统的防火墙对此无能为力。为了保障互联网络的安全,研究针对网络信息内容的过滤技术已经成为了一个迫切的要求。 在这种应用需求的背景之下,本文针对网络信息内容的实时分析中的关键技术,即多关键字实时搜索技术,汉语分词技术和汉语文本的内容识别和分类技术进行了研究。文中提出了基于论点倾向的网络信息内容实时分析的方法,可以对网络中的通信数据进行实时的分析和处理,从而识别出其中的各种非法信息。 文中提出了一种基于树的多关键字搜索方法,用于对网络通信数据之中的所有关键字进行实时高效的搜索。同时,本文还根据汉语的自然语法规则总结出了句子主干提取的原理,再进一步解析出汉语基本句型的语义分析及其误差校正的机制,最终提出了一种对网络信息内容的论点倾向进行实时判别的方法,并且开发出了一套对应的函数库对该方法加以实现。 实验测试结果表明,文中所提出的方法能够实现对网络信息内容中所含非法信息的实时识别,当范例文本中含有五个或五个以上的关键词(句)时,其文本论点倾向的判决正确率达到80%或是更高。