网页关键字过滤研究及改进

来源 :内蒙古大学 | 被引量 : 5次 | 上传用户:fzyfmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息化高度发达的今天,互联网已经成为人们获取信息,即时沟通的重要媒介之一,给人们工作生活带来了很大的便利。但是由于其全球性、开放性、即时性的特点,互联网也成为不法分子传播不良信息的重要途径,与传统媒体相比更为棘手。如何对互联网进行有效的管理,过滤其中的不良信息,净化网络环境成为苛待解决的问题。目前网络中70%的信息是以文本形式存在,网页文本过滤成为目前网络监控的最重要手段。文本过滤方法有很多,关键字过滤是目前应用最广和最为可靠的技术,虽然存在一定的局限性,但是由于其过滤速度快、易于实现得到很大应用。本文就是针对文本关键字过滤的局限性,提出合理的解决方案,并设计了系统。本文首先简要介绍了网页文本过滤的背景,系统地探讨了关键字过滤流程的各个环节,其中包括概念扩展,敏感词特点分析和特征抽取,并提出了相应的解决方案。文章借鉴了其它文本过滤方法的优点,充分考虑了系统地召回率、查准率,运行效率及可实现性,给出了一种改进的网页文本过滤系统的体系结构,并详细阐述了一种多层次的网页文本关键字过滤方法,给出了实现该系统主要模块的数学模型及相关算法。本文所设计系统由两部分组成:数据包捕获与重组子系统和文本关键字过滤子系统。数据包捕获与重组子系统用来捕获局域网中流经网卡的web数据包,并对捕获的数据包重组,将其还原成完整的web页面。在文本关键字过滤子系统设计中,详细分析了当前网页中敏感词隐藏主要特点,改进了基于字典的敏感词识别方法,使敏感词恢复原始组合状态。改进了关键字权值算法,较好的解决了关键词在网页中不同位置及短文档对权重的不利影响。
其他文献
语义Web粗糙本体是经过本体描述语言表示而应用于语义Web的粗糙本体,是语义Web本体的一种扩展形式。作为其构成的粗糙概念及粗糙概念之间关系分别由精确概念及精确概念之间关
随着我国经济的快速发展,海上溢油事故频发,造成巨大的经济损失和生态环境灾难。由于海上情况复杂,溢油区形状变化快,消除溢油污染危害的成本和难度较大。因此利用多手段遥感
随着Web服务组合的发展,Web服务组合越来越复杂,Web服务的质量也成为关注热点。Web服务的测试,尤其是Web服务组合的测试,成为保障Web服务组合质量的重要环节。BPEL是描述Web
随着工业控制系统的发展,在各个工业领域过程控制系统中积累了大量的数据,如何准确地从这些数据中发现有价值的知识及规律,是目前理论与应用中研究的热点与难点。目前,流程工业作
互联网中与日俱增的信息在给用户提供诸多方便的同时也悄然带来了“信息过载”的烦恼。如何更有效地获取信息,应对信息过载问题,个性化推荐系统已成为公认最有前途的技术发展
随着信息技术的迅速发展以及互联网的广泛深入,信息系统在人类社会中扮演着越来越重要的角色,而处于信息系统底层的操作系统,是计算机资源的直接管理者,其安全问题是信息系统
在移动通信网络中,除了较低花销实现数据的高速传输,还要求在各种生存环境中,网络具有适应性和生存能力。无线传感器网络(WSN)能够工作在恶劣的环境下,不受环境的限制,因此无
蛋白质组学是当前生命科学的新前沿,通过研究蛋白质的功能、结构、相互作用来系统地分析蛋白质,进而分析生命活动,成为热点的研究问题之一。尤其是,从蛋白质网络中识别蛋白质复合
随着软件产业的飞速发展,软件系统的规模不断扩大,导致软件的复杂度变得越来越高,由软件缺陷带来的事故也频繁发生,因此,软件测试作为保证软件质量的重要环节越来越受到重视
命名数据延迟容忍网络(NDDTN)是指命名数据网络(NDN)和延迟容忍网络(DTN)的融合。一个高效的转发策略不仅能够帮助用户快速准确地获得想要的内容,而且还有较低的传输时延和网