基于语义的信息过滤算法及其应用

来源 :北方工业大学 | 被引量 : 11次 | 上传用户：liuw_ei

【摘要】

：

在互联网提供的海量、庞杂的信息中，不良信息以不同的表现形式，从不同的角度对不同人群造成毒害或干扰。因此，对网络访问进行必要的、有效的内容过滤是营造健康、安全网络环境的

【作者】

：

周文刚

【机构】

：

北方工业大学

【出处】

：

北方工业大学

【发表日期】

：

2006年01期

【关键词】

：

文本信息过滤语义框架分词代理服务器内容重现

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在互联网提供的海量、庞杂的信息中，不良信息以不同的表现形式，从不同的角度对不同人群造成毒害或干扰。因此，对网络访问进行必要的、有效的内容过滤是营造健康、安全网络环境的重要环节。但是，传统的文本信息过滤算法仅能实现结构对应层次上的判断，无法体现文本的语义，过滤效果难以满足智能化的要求。本文结合计算语言学知识，提出并实现了基于语义的信息过滤算法。该算法包括对目标语句分词、词性标注、生成语义框架、计算两语句对应的语义框架间的相似度等关键环节。借助事先构建的词库，使用最大二分分词法，将句子切分成用二叉树表示的词集合；借助语法规则库和分词结果中存储的词性和词在句子中的位置信息，区分出关键字(主谓宾)，填充语义框架；按照给定的距离函数和词语相似度计算规则，计算框架间的相似度；根据相似度是否大于阈值决定过滤与否。此算法将两语句语义相似程度的比较操作转换成了数学计算，量化了语句间的语义相似度。试验表明，其过滤效果较传统算法在语义对应层次上有较大提高。代理服务器在Intranet管理中具有重要作用。本文实现了HTTP代理服务器，借助它，在应用层实现了对Web页内容的语义过滤。并且，通过将客户机成功访问过的网页内容存储在代理服务器端，实现了Web页访问的内容重现。为了提高过滤效率，本文依照分级过滤的思想，在网络层以下，采用NDIS和HOOK技术，实现对流经代理服务器的数据包进行按端口、协议等过滤；在应用层，基于HTTP代理技术，对包含Web页内容的应答数据包先进行关键字过滤，然后只对包含关键字的包进行基于语义的内容过滤，减轻了语义过滤的计算量。本文介绍了一个具有基于语义过滤和内容重现功能的代理服务器(SemanticFR)的设计和实现。SemanticFR具有监控网络流量、网络层上包过滤、应用层上关键字过滤和语义过滤、基于URL、关键字的访问控制、网络访问内容重现等功能，系统运行稳定，达到了预期效果。

其他文献

基于多Agent企业管理诊断模型

根据企业诊断的学科特点，结合企业对信息系统不断增长的更加智能化、理性的要求，本文采用智能体Agent技术和本体论，对企业诊断系统模型进行建模分析和信息交互方面的研究。

学位

企业管理诊断Agent信息交互本体论SOAP诊断模型

面向新浪微博的智能自动回复技术的研究与实现

随着互联网技术的飞速发展,微博已成为一种应用比较广泛的社交媒体。微博相对开放的自媒体传播特征,使得人们可以自由的表达观点,微博已成为人们发布信息和获取信息的主要载

学位

新浪微博信息抽取情感词典情感倾向同义词替换相似度

基于XORP的J2ME M3G类库的设计与实现

随着移动设备的普及和性能的不断提高，其运行的应用程序日趋多样化。同时Java作为跨平台、面向对象的语言而受到青睐。开放式运行平台(ORP，Open Runtime Platform)是一个高性能

学位

J2ME开放式运行平台J2ME M3G类库虚拟机有限连接设备配置移动信息动态编译

基于内容的图像索引和浏览算法研究

随着互联网与多媒体技术的迅猛发展,数据信息也飞速增长,这使得图像检索技术倍受关注。基于内容的图像检索直接利用图像的视觉特征进行检索,能有效地提高检索的速度和效率,为

学位

图像检索高维索引图像浏览主成分可视化

全基因组序列分析软件流水线的并行与优化关键技术研究

随着基因组测序技术的不断发展,生物序列数据库规模持续以每10个月翻一番的速度快速增长,当前全基因组序列分析软件流水线的性能已无法满足基因组序列数据处理的时效性需求。

学位

全基因组序列分析高通量测序基因组装BWT天河二号序列比对RNA编辑

基于ARM+μClinux的灌溉控制系统的构建

嵌入式计算机系统的诞生,标志着计算机进入了通用计算机系统与嵌入式计算机系统两大分支并行发展的时代,从而导致20世纪末计算机的高速发展时期。后PC时代的两大发明:嵌入式

学位

嵌入式 Linux 系统μClinuxYAFFSFrameBufferMiniGUI

基于编码机制的命令编辑解释器研究

随着信息技术尤其是计算机网络技术的不断发展,信息技术在现代教育活动中的应用越来越广泛和深入,远程教学模式因其固有的诸多优势正在全球范围内蓬勃发展,在充分利用目前我

学位

命令流消息映射机制win32多线程程序设计挂钩DLLPE文件格式TLS线程同步机制

Web信息检索中的概念相似度研究

随着网络信息的急增,Web信息检索将扮演着越发重要的角色,如何提高信息检索的效率也随之成为研究热点。而在信息检索领域中,概念相似度计算起着很重要的作用,提高概念相似度

学位

语义Web本体底层概念上层概念概念相似度主观判断

基于软交换技术的传真服务器的研究与应用

随着通讯技术的发展,以软交换代表的下一代网络技术已经得到广泛的应用。本文深入研究了软交换的相关概念及其具体实现技术,设计了基于软交换技术的传真服务器的系统架构,成

学位

软交换传真服务器IP传真

音频数字水印的研究与实现

音频数字水印技术是近年来的研究热点之一，该技术通过向音频文件中嵌入秘密信息以达到版权保护、掩蔽通信等目的。当所有者权益被侵犯时，可通过对水印的检测来得到证明。近几年

学位

音频数字水印离散余弦变换离散小波变换量化

基于语义的信息过滤算法及其应用

与本文相关的学术论文