基于内容安全的中文网页过滤系统

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wokaoyan123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的进一步发展,合法和非法的信息大量充斥其间,基于内容的信息安全已经成为安全领域的一个新焦点。为了给用户能提供健康的、安全的信息,就有必要对非法网页进行过滤处理。在这一领域,已经有许多相关技术,由于汉语语言的特殊性,基于内容安全的中文网页过滤技术还有待进一步完善。 本文在对内容安全以及中文网页过滤技术发展现状分析的基础上,对其中两项关键技术——中文分词技术和过滤器技术,进行了详细讨论。构造了一个具有学习新词功能的中文分词系统,其性能较原有系统得到了提高。同时,应用概率模型和向量空间模型设计了两种过滤器算法,结合这两种算法的优点,构造了一个高性能的网页过滤器。最后,应用所设计的模型,完成了中文网页过滤系统的总体设计、实现和测试。 测试结果证明,由于提高了中文分词环节的精确度和过滤器环节的准确度,中文网页过滤系统的性能得到了进一步的提高。
其他文献
随着国家对煤矿安全问题重视度的提高,越来越多的人参与到了井下人员跟踪定位管理系统的研究,研制了许多使用于矿井中的人员定位系统,但是这些技术对人员只是一个粗略地定位,
空间数据挖掘是指从包含空间信息的数据库中抽取隐含的知识、空间关系或有意义的特征模式。它在理解空间数据、获取空间与非空间数据的内在关系上具有重要意义。空间聚类分析
大规模定制生产以及用户的个体化需求催生了产品配置设计,而绿色设计为众多企业解决资源利用率低、能源消耗高、对环境影响大的困境拓展了新的途径。目前,这两种设计理念已进
本课题主要从事脉冲耦合神经网络(Pulse-Coupled Neural Networks,以下简称PCNN)对数字图像处理应用的理论研究工作,具体考察它在图像增强中的应用。该项目受国家自然科学基
随着网络技术的飞速发展,计算机网络被广泛应用到人类活动的各个领域,网络对社会经济和人们生活的影响越来越大。网络的安全性问题也越来越受到广泛的关注,各种网络安全相关
本论文的主要工作是在研究了基于ARM体系结构的Intel Xscale PXA255处理器的基础上,以该处理器为核心,加上存储器等器件设计完成了一个嵌入式硬件系统平台。论文对Xscale PXA
本课题是我院数字化建设中的重大需求。近年来,医疗行业信息化的发展十分迅速,医院的管理在多年的医疗体制改革的背景下,正向着现代化科学化的方向发展,相应地作为管理工具的HIS(
学位
目前,国内大多数钢材生产厂家都采用人工方法来计量捆扎线材的根数,效率低下,劳动强度高,计数误差大,而引进全自动生产线,成本较高,因此,他们迫切需要低廉的自动计数仪。从上世纪90年
本课题是根据国家税务总局提出的“以纳税申报和优化服务为基础,以计算机网络为依托,集中征收,重点稽查”的指导思想,是国家税务局优化服务职能、促进信息化建设、提高工作效
随着计算机应用越来越广泛,各个行业、各个部门都使用了相应的应用软件对其内部信息进行管理。而互联网的发展,要求能够实现各地区、各部门之间的互联互通,从而达到信息的交流和