基于文本词性与位置过滤的网页排名技术研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:cox_7261
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web的快速发展和Web信息的爆炸式增长,越来越多的Web用户使用搜索引擎来寻找想要的信息,搜索引擎也就扮演着越来越重要的角色。为了能将更好的搜索结果提供给用户,大部分搜索引擎都利用链接分析等方法来对网页进行排名。 链接分析算法基于以下假设:链接反映了网页作者对于所指向网页的认可,并且存在链接关系的网页很有可能是关于同一个主题。但是随着Web的发展,Web链接结构发生了很大的变化,Web页面中的链接数量越来越多,其中不相关链接的比例也越来越高,这就对链接分析的方法造成了很大的负面影响,大大降低了网页排名质量。 本文正是基于这样的问题,提出了一种基于文本词性与位置的链接过滤技术。首先,使用文本词性分析和位置分析技术,建立相关性计算模型,通过计算网页文本内容和链接所指向页面的文本相关性,过滤网页中的不相关链接,进而生成新的链接结构图。在这个链接结构图中,链接间的推荐关系更为真实有效。然后基于该链接结构图,利用链接分析算法对网页进行排名。 通过实验表明,本文提出的算法提高了链接排名效果,包括对质量较好的网页排名的提高、推荐站点数的增多、所含垃圾网站个数的减少等。另外,也通过实验对相关参数进行了讨论。本文还结合北京大学“天网”搜索引擎的架构模式,讨论了如何将所提出的链接过滤技术合理地应用于实际系统中,从而在保持良好的系统可扩展性的基础上,提高搜索引擎的排名质量。
其他文献
随着Internet发展的深化以及Web2.0时代的到来,越来越多的企业和组织将它们的各种业务系统转移到Web上来。基于Web的企业级应用的分布式、开放性的体系结构一方面使得系统的使
二维矩形装箱问题(2-DimensionalRectangularPackingProblem,2DR-PP)属于典型的组合优化问题,在工业领域有着广泛的应用,如新闻组版、布料切割、金属下料等。理论上,该问题属于NP
P2P存储系统具有可扩展性好,容错性高等优势,是近年来学术界的研究热点。但是由于P2P存储系统的复杂性高,搭建起来比较困难,使得系统并没有随着研究发展而流行起来。尤其是在广域
三维人体建模在服装定制、虚拟现实、电子游戏、影视特效等领域中具有重要的应用价值。在基于立体视觉的三维人体模型重建过程中,由于相机视角与遮挡等原因,获取到的点云数据往
指代是自然语言中常见的语言现象,大量出现在日常对话和书面记录中。由于互联网技术的不断发展,Web上出现了数以万记的网页,这些网页的内容大多是以自然语言的形式描述的,其中包
随着集成电路制造工艺的进步和半导体技术的发展,传统的二维芯片的设计越来越复杂,通信成本不断提高。三维集成技术缩短了物理连线的长度,降低了系统的通信时延和功耗,成为芯片架
随着互联网的飞速发展以及网络应用服务越来越呈现出的多样化和多元化等特点,网络协议、网络基础设施以及网络服务存在的相关缺陷和问题为黑客所利用,网络攻击正趋日益增长之势
由于Web应用系统具有层次分明,可移植性好,管理灵活的特点,Web应用软件己成为当前软件系统开发的主流,同时,Web应用软件由产品向服务的转型是Web应用软件发展的必然趋势,针对用户对
随着软件开发的全球化发展,地理上分散的开发人员之间的协同工作在软件开发中所占的地位越来越重要,协同软件工程也因此成为软件开发领域的热门研究方向。软件工程领域的协同的
无线Mesh网络(Wireless Mesh Networks,WMN)作为一种无线多跳的组网方式有着广阔的应用前景。WMN具有高带宽、覆盖范围广以及部署成本低等特点,用户可以不依赖于现有的网络基础