中文web文本过滤技术研究

来源 :中北大学 | 被引量 : 0次 | 上传用户:a247114340
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的日益普及,人们对网络的依赖程度越来越高,互联网的平等性、开放性、无界性等导致了网络的无限制滥用,大量的垃圾及敏感信息充斥于网络,特别是对广大青少年学生,一些“有害信息”正在威胁着他们的身心健康。如何协助用户更加方便有效地利用现有的网络资源,并且从中获得真正有用的信息,是信息处理的一个研究方向。当前的网页过滤系统主要采用URL过滤和关键字过滤的技术,而这些技术在网页过滤的准确性和速度方面都存在不足。要提高网页过滤的准确性和速度,必须对网页内容进行深度分析。网页是一种结构化的文档,DOM是一个针对HTML和XML文档进行灵活操作的编程接口。在对网页结构进行详细分析后,本文提出了按照结构对网页进行解析,利用DOM技术提取网页文档的不同元素中的文本内容的方法。本文首先阐述web上信息过滤的基本问题,包括信息过滤的基本原理、过滤系统的一般处理流程、过滤系统的分类以及过滤系统的性能评价指标等。然后,着重对web文本内容过滤中涉及的关键技术进行深入地分析和探讨,主要包括中文分词技术、文本特征提取技术、用户兴趣模型的表示与更新以及文本过滤技术。针对当前网页信息提取技术提取效率低的现状,本文提出了基于HTML树和内容分析的可适应性信息抽取方法。针对向量空间模型过滤器对网页结构不分权重,使得过滤性能低的原因,本文改进了向量空间模型的文本向量表示形式,实验结果验证了改进的向量空间模型更适合网页文本的过滤。在此研究基础上,设计了一个中文web过滤原型系统,并对系统总体框架、功能模块以及系统实现的主要方法进行详细阐述,最后,对该系统做了测试,实验证明,该系统具有较好的信息过滤性能。
其他文献
随着中国电信重组及全面开放3G业务,电信行业的竞争日益加剧。中国联通某电信企业利用数据仓库、联机分析等各种技术来设计和实现企业的经营分析系统,从业务支撑系统入手提取出
随着微电子技术、计算机技术以及通信技术的飞速发展,工业控制网络也不断向前发展,从基于模拟信号传输的集散控制系统(DCS),到数字化、智能化、全分散的现场总线,再到近年来
21世纪是网络的时代,越来越多的企业、事业单位已经建立了内部网络并且接入了互联网服务。在享受网络便利的同时,各种各样基于网络的不利因素也随之而来,内网的管理和安全问
不同于传统C/S网络中需要使用中心化的服务器来管理整个网络的特点,P2P网络将网络中的上传、维护、管理等任务分发在网络中的各个节点上,解决了C/S网络中存在的性能瓶颈等问
现在很多大型软件系统,需要不间断提供服务,如通讯、金融、航空航天系统,它们对系统的可用性要求很高。随着用户需求、可用资源、硬件设备以及开发技术的不断发展,软件供应商
随着DSP技术和嵌入式技术的快速发展,嵌入式DSP应用已经渗入到我们日常生活的各个方面,我们的生活也因此变得更加便利和丰富多彩。与此同时,嵌入式DSP系统的复杂度也在不断提
随着多媒体的推广和应用,以及信息和网络技术的发展,产生了大量的各式各样的视觉内容。图像是这些视觉内容中的一个重要的组成部分。它能够直接形象的表达信息。但如何从海量
多视角学习是近年来机器学习中的热点研究领域之一,广泛应用于场景分析、图像处理及网页信息处理等多个实际应用领域。本文主要针对多视角聚类进行研究,在已有单视角判别聚类
科技的进步带来了计算机网络及计算机软硬件正如摩尔定律预测那样的快速发展,个人逐渐依赖于计算机网路这个大群体,很想成为网路中的一员来获取满足自己需求的网路资源。然而
计算机技术的发展日新月异,部署在计算机上的软件系统也越来越复杂。人们极度依赖于软件的正确运行,特别是在关系到人类生命财产安全的关键领域,可靠的软件尤为重要。研究软