基于语义的信息过滤算法及其应用

来源 :北方工业大学 | 被引量 : 11次 | 上传用户:liuw_ei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网提供的海量、庞杂的信息中,不良信息以不同的表现形式,从不同的角度对不同人群造成毒害或干扰。因此,对网络访问进行必要的、有效的内容过滤是营造健康、安全网络环境的重要环节。但是,传统的文本信息过滤算法仅能实现结构对应层次上的判断,无法体现文本的语义,过滤效果难以满足智能化的要求。本文结合计算语言学知识,提出并实现了基于语义的信息过滤算法。该算法包括对目标语句分词、词性标注、生成语义框架、计算两语句对应的语义框架间的相似度等关键环节。借助事先构建的词库,使用最大二分分词法,将句子切分成用二叉树表示的词集合;借助语法规则库和分词结果中存储的词性和词在句子中的位置信息,区分出关键字(主谓宾),填充语义框架;按照给定的距离函数和词语相似度计算规则,计算框架间的相似度;根据相似度是否大于阈值决定过滤与否。此算法将两语句语义相似程度的比较操作转换成了数学计算,量化了语句间的语义相似度。试验表明,其过滤效果较传统算法在语义对应层次上有较大提高。代理服务器在Intranet管理中具有重要作用。本文实现了HTTP代理服务器,借助它,在应用层实现了对Web页内容的语义过滤。并且,通过将客户机成功访问过的网页内容存储在代理服务器端,实现了Web页访问的内容重现。为了提高过滤效率,本文依照分级过滤的思想,在网络层以下,采用NDIS和HOOK技术,实现对流经代理服务器的数据包进行按端口、协议等过滤;在应用层,基于HTTP代理技术,对包含Web页内容的应答数据包先进行关键字过滤,然后只对包含关键字的包进行基于语义的内容过滤,减轻了语义过滤的计算量。本文介绍了一个具有基于语义过滤和内容重现功能的代理服务器(SemanticFR)的设计和实现。SemanticFR具有监控网络流量、网络层上包过滤、应用层上关键字过滤和语义过滤、基于URL、关键字的访问控制、网络访问内容重现等功能,系统运行稳定,达到了预期效果。
其他文献
根据企业诊断的学科特点,结合企业对信息系统不断增长的更加智能化、理性的要求,本文采用智能体Agent技术和本体论,对企业诊断系统模型进行建模分析和信息交互方面的研究。
随着互联网技术的飞速发展,微博已成为一种应用比较广泛的社交媒体。微博相对开放的自媒体传播特征,使得人们可以自由的表达观点,微博已成为人们发布信息和获取信息的主要载
随着移动设备的普及和性能的不断提高,其运行的应用程序日趋多样化。同时Java作为跨平台、面向对象的语言而受到青睐。开放式运行平台(ORP,Open Runtime Platform)是一个高性能
随着互联网与多媒体技术的迅猛发展,数据信息也飞速增长,这使得图像检索技术倍受关注。基于内容的图像检索直接利用图像的视觉特征进行检索,能有效地提高检索的速度和效率,为
随着基因组测序技术的不断发展,生物序列数据库规模持续以每10个月翻一番的速度快速增长,当前全基因组序列分析软件流水线的性能已无法满足基因组序列数据处理的时效性需求。
嵌入式计算机系统的诞生,标志着计算机进入了通用计算机系统与嵌入式计算机系统两大分支并行发展的时代,从而导致20世纪末计算机的高速发展时期。后PC时代的两大发明:嵌入式
随着信息技术尤其是计算机网络技术的不断发展,信息技术在现代教育活动中的应用越来越广泛和深入,远程教学模式因其固有的诸多优势正在全球范围内蓬勃发展,在充分利用目前我
随着网络信息的急增,Web信息检索将扮演着越发重要的角色,如何提高信息检索的效率也随之成为研究热点。而在信息检索领域中,概念相似度计算起着很重要的作用,提高概念相似度
随着通讯技术的发展,以软交换代表的下一代网络技术已经得到广泛的应用。本文深入研究了软交换的相关概念及其具体实现技术,设计了基于软交换技术的传真服务器的系统架构,成
音频数字水印技术是近年来的研究热点之一,该技术通过向音频文件中嵌入秘密信息以达到版权保护、掩蔽通信等目的。当所有者权益被侵犯时,可通过对水印的检测来得到证明。近几年