基于局部语义的网页净化算法

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:zhang328061832
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页净化算法的目的是除去影响搜索引擎获取网页主题的噪音。本文提出一种基于局部语义的网页净化算法。算法遍历转化成DOM树后的网页,通过计算相邻节点的相似度,确定局部语义节点范围,然后提取局部语义信息,建立局部语义树模型,最后除去与网页主体的相关性低于预定阈值的局部语义节点,达到网页净化的目的。实验表明算法是有效的。
其他文献
日前,江西省冶金集团公司环境治理技改项目——江西金德铅业铅冶炼工程在德兴开工。它的铅冶炼项目采用具有世界领先水平的冶炼专利技术:氧气底吹熔炼——鼓风炉还原炼铅法,具有
日前,应上海德瑞机械制造有限公司瞿晓春副总经理的邀请,上海市有色金属学会设备专业委员会的专家们在该公司召开了铜铝连续挤压自动线系统的现场观摩及研讨会。专家们听取了公
基于软构件技术的开发模式是软件工程化开发的必然趋势,本文首先对软构件技术进行了介绍,然后通过对《计算机应用基础》课程考试系统的设计,讨论了软构件的设计与组装,最后,给出了
基于XML技术,经过对信息交换平台的信息描述深入的研究,提出了开放信息模型(OIM),对信息进行统一的描述,使信息可以跨平台发布。本文介绍数据清洗模型的设计。
工作流管理系统负责业务过程的建模和执行,这些业务过程往往涉及到多个参与者,需要使用分布的资源,调用多个软件系统,而且时间跨度很长,因此在工作流执行时可能存在多种潜在的工作
IBM System p5 560Q中型服务器拥有出色的性价比,它秉承了大型机的可靠性、可用性,可扩展至16核。基于IBM POWER5+处理器(带同步多线程)和独一无二的可扩展构建块架构,19英寸的
WebDAV(Web-based Distributed Authoring and Versioning)是基于HTTP 1.1的一个通信协议,它为HTTP 1.1添加了一些扩展,使得应用程序可以直接将文件写到Web Server上。基于WebD
提出了一种电子行走辅助(ETA)系统模型--AudioMan用于辅助盲人行走,盲人用户通过它的声音提示,来判断当前环境的情况。其重要研究内容之一是如何正确提取环境方向矢量。对提取过程中的两个主要步骤:边缘检测算法和道路偏转矢量的计算作了详细的介绍,针对现实生活中的盲道所做的实验获得了比较满意的效果。
专利申请号:03247468.7公开号:CN2623379申请日:2003.06.20公开日:2004.07.07申请人:王嫦萍 本实用新型涉及模具技术领域,尤其是一种铆合线材用的铜带机上模。它包括有一长条臂,长条臂的
传统黄页检索采用的是基于关键词的检索,而缺乏对语义的表示、处理等能力,导致检索质量低下。基于本体的语义黄页检索是建立在语义网基础上的黄页检索技术,它能够提高检索的查全