基于规则的文本信息过滤系统语料库自动生成技术

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yin2002cn2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本信息过滤就是根据需要,屏蔽或过滤用户不需要或者不良的文本信息,在Internet迅速发展的今天,文本信息过滤技术已经引起了广泛的关注.该文以2001中央财政专项"网络信息的安全过滤技术"开发的"基于规则的文本信息过滤系统"为基础,提出了一种自动生成过滤系统语料库的技术,其中语料库包含词库和规则库,是过滤系统对需要被过滤的文本内容(目标文本)的抽象描述,过滤系统根据语料库对待处理文本进行识别和过滤.原过滤系统中的语料库的开发需要开发人员手工对大量的目标文本样本进行分析处理,经过大量的实验和修改后得到,这种方法不仅费时费力,以于开发人员有很高的要求,而且没有形成规范,缺乏可重复操作性,难以保证过滤系统性能的稳定.该课题根据这种情况,提出了一种自动生成过滤系统语料库的技术,这种技术能够从目标文本的样本中提取语义特征,并且结合描述通用语言的标准语料库,生成可以抽象目标文本的生成语料库.这种技术解决了原系统语料库开发中存在的问题,完善了基于规则的过滤模型,并且在很大程度上提高了基于规则的文本信息过滤系统的使用价值.
其他文献
语义网络和现代软件工程相结合的研究在互联网技术高速发展的今天已成为研究热点之一.其中,由于语义互联信息的模型及元模型能增强网上知识的共享与互操作,成为重要的研究课
当前网络路由技术关注的焦点是链路可连接性,并且通常只支持一类服务,即尽力而为服务.Multi-Protocol Label Switching[RFC3031]作为新一代的网络技术,它通过标记交换结合网
随着数据信息的急剧膨胀,直连到主机的本地存储模式已显得力不从心,网络正成为主要的信息处理模式.SAN(StorageAreaNetwork,存储区域网络)技术应运而生,成为人们解决存储带宽
随着软件复用的发展,特定于领域的、基于体系结构的复用策略成为复用研究中的一个重要内容.DSSA(特定领域的软件体系结构)是领域工程中领域分析阶段的产品,给出了领域分析模
人机智能交互(Human-Computer Intelligent Interaction,旨在使人类更自然地使用计算机)是近年来蓬勃发展的科学领域,我们知道要想让计算机能和人自然交流需要计算机拥有人类
在日益增长的网络服务中,为了研究如何向用户提供更高质量的服务,确保服务能够得到用户的认可,以用户为中心来评价服务质量是当前的迫切需要。用户体验质量(QoE, Quality of
在发达的互联网时代,软构件是高效软件开发与服务的主流技术.而建立一个管理和检索软构件的软构件库,则是大范围复用软构件的必然途径.随着众多软构件库的出现,他们之间的互
网络已成为人们社会生活必不可少的一部分.而目前网络安全问题日益严重,成为阻碍网络发展的主要障碍.传统的安全手段都是被动和静态方式,当然不足已抵御千变万化的入侵.入侵
互操作是构件运行支撑平台的核心能力之一.不同的互操作技术适用于不同的应用领域,因此,如何在不改变应用运行支撑环境基础结构的前提下,根据不同应用需求定制或扩展不同互操
互联网技术的飞速发展,使得以数据库为中心的Web应用系统越来越广泛。然而随之而来的安全问题也越来越频繁,SQL注入攻击是Web应用系统面临的严重安全威胁之一,其检测问题的研究