论文部分内容阅读
在互联网提供的海量、庞杂的信息中,不良信息以不同的表现形式,从不同的角度对不同人群造成毒害或干扰。因此,对网络访问进行必要的、有效的内容过滤是营造健康、安全网络环境的重要环节。但是,传统的文本信息过滤算法仅能实现结构对应层次上的判断,无法体现文本的语义,过滤效果难以满足智能化的要求。本文结合计算语言学知识,提出并实现了基于语义的信息过滤算法。该算法包括对目标语句分词、词性标注、生成语义框架、计算两语句对应的语义框架间的相似度等关键环节。借助事先构建的词库,使用最大二分分词法,将句子切分成用二叉树表示的词集合;借助语法规则库和分词结果中存储的词性和词在句子中的位置信息,区分出关键字(主谓宾),填充语义框架;按照给定的距离函数和词语相似度计算规则,计算框架间的相似度;根据相似度是否大于阈值决定过滤与否。此算法将两语句语义相似程度的比较操作转换成了数学计算,量化了语句间的语义相似度。试验表明,其过滤效果较传统算法在语义对应层次上有较大提高。代理服务器在Intranet管理中具有重要作用。本文实现了HTTP代理服务器,借助它,在应用层实现了对Web页内容的语义过滤。并且,通过将客户机成功访问过的网页内容存储在代理服务器端,实现了Web页访问的内容重现。为了提高过滤效率,本文依照分级过滤的思想,在网络层以下,采用NDIS和HOOK技术,实现对流经代理服务器的数据包进行按端口、协议等过滤;在应用层,基于HTTP代理技术,对包含Web页内容的应答数据包先进行关键字过滤,然后只对包含关键字的包进行基于语义的内容过滤,减轻了语义过滤的计算量。本文介绍了一个具有基于语义过滤和内容重现功能的代理服务器(SemanticFR)的设计和实现。SemanticFR具有监控网络流量、网络层上包过滤、应用层上关键字过滤和语义过滤、基于URL、关键字的访问控制、网络访问内容重现等功能,系统运行稳定,达到了预期效果。