基于混合模式的网页过滤系统研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:nimin518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为互联网的重要应用,网页浏览一直受到广大网民的青睐。但是互联网在给大家带来便利的同时,无用信息和不良网页问题也日益严峻。这类网页不仅耗费网络带宽和计算机时空开销,而且不良信息会对用户的身心健康造成严重的干扰。 网页过滤系统旨在帮助用户屏蔽无用和不良的网页信息。目前经常采用的网页过滤技术一般包括地址过滤、规则过滤以及敏感词过滤等。传统的过滤方法简单快速,但是对健康网页的误判率还较高。另外一个思路就是从网页的文本内容入手,使用文本分类、信息过滤的算法,在训练网页集合上学习网页分类器来进行网页过滤。由于网页过滤系统通常是在线式的应用环境,在将文本分类算法引入到网页过滤中时,往往很难在过滤的准确度和处理的实时性上达到平衡。 本文构建了基于混合模式的网页过滤系统,将传统的基于网址过滤和敏感词过滤的方法与基于文本分类的过滤方法结合起来。文章重点讨论了特征量选取、网页结构化信息利用、文本分类算法组合等方面的改进措施。实验表明这种模型在保持易于实现的特点的同时,在速度和准确度方面都有不同程度的提高。
其他文献
随着CAD系统与计算机支持的协同工作(CSCW)领域研究的迅速发展,人们正在寻求将CAD技术与CSCW技术结合起来,以开发出计算机支持的协同设计系统(CSCD)。基于桌面共享的CSCD系统
随着网络通信技术和Internet的联系日益增强,与网络安全相关的问题:如网络上传输的信息被截取、篡改、重发等对网络应用的进一步推广构成巨大威胁,基于数据加密的网络通信系
视频处理一直是计算机技术发展的重要领域。随着计算机性能的不断提高,视频应用已经渗透到生活生产的方方面面。同时,随着网络的普及及其带宽的不断提高,视频文件的传递与共享更
集成电路(IC)生产过程中,电子部件需要进行高温烘烤一定时间后冷却再进行测试。目前市场上小型烘干机使用很不方便,不具备恒温计时及快速冷却等功能,也无法实现后台监测管理,
在过去的十年中,科学计算正从主机集中方式转移到并行和分布方式;近年来这一趋势更向着网格计算延伸。网格是当前并行与分布式计算技术的一个重要发展方向,其目标是实现对地
事务处理是J2EE体系的一个核心技术,在企业应用中使用事务处理是非常有益的,它已成为当前计算机科学技术领域引人注目的重大研究课题。本文提供一篇关于基于J2EE技术的WEB事务
嵌入式系统是嵌入式到其他产品内部的计算机。嵌入式系统广泛应用于各种复杂工程技术中,包括网络通讯系统、制造系统、医疗设备、电力电网、汽车制造、航天飞机和运输系统等
信息时代的到来,各种信息、知识的获取以及娱乐节目的收看等媒体信息服务被越来越多的人们所希望,各式各样的媒体终端方案应运而生。利用现有的网络和流媒体等技术提供一种直接
基于网格技术整合和管理网络中分布的各种资源,实现资源共享与协同工作已经成为科研界的一个研究热点。校园计算网格是网格技术的一个重要应用方面。本文从分析校园计算网格的
软件开发技术日新月异,但软件的质量和可靠性常常是软件工程中的薄弱环节。电信网管系统是为电信运营商更好的对电信网及各种设备进行管理而出现的,系统的软件质量直接影响了