基于排序学习的网页搜索算法研究及应用

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:jove110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,互联网已经成为全球最大的信息数据库,而如何在这些海量数据中快速定位到我们所需要的信息,这一问题已经成为当前重要研究课题。现有的搜索引擎排序技术是基于词频和位置的统计排序,或是基于链接分析的排序,然而这些方法都有一些不足,如词频统计没有利用跟网页链接有关的特性,基于链接分析的排序在链接设置上存在欺骗行为。  排序学习作为网页排序领域中的新方法可以弥补上述两类排序方法的不足,本文主要对排序学习的中文网页的特征提取和基于样本对级别的RankNet排序算法进行了研究,具体工作如下:  首先,对排序学习的中文网页特征提取进行了研究,分析中文网页与英文网页的不同,除了应用传统的词频统计方法,基于链接的特征提取方法,以及文档相关性提取的概率模型BM25和语言模型LMIR特征提取方法外,提出将词性分析加入到编辑距离特征提取中,并将其加入到了排序学习的中文网页特征提取系统中。  然后,提出了对基于神经网络的样本对级别方式的排序算法的改进,以RankNet算法为例,对其误差函数进行了改进,加入文档位置权重信息,对不同位置的文档组成的文档序对赋予不同的权值。  最后,本文对上面提出的两点改进进行了实验,结果表明在特征提出时加入编辑距离特征,排序的错误率降低了3%到9%;改进后的RankNet算法能够有效的提高网页排序的精度。本文设计并实现了一个基于神经网络的排序学习搜索引擎系统,在系统的检索排序上,我们使用了RankNet改进后的排序方法,可以提高检索结果的查准率。
其他文献
光刻设备的分辨率越来越高,以满足集成电路特征尺寸不断缩小的要求。根据瑞利判据,可以通过缩小曝光波长和工艺因子、增大数值孔径来提升光学投影光刻的分辨率。随着数值孔径的
工业3.0与虚拟现实、增强现实技术都是当下炙手可热的话题,这些技术都扎根于计算视觉技术,其中三维重建技术作为计算机视觉领域当中一个重要的方向,得到了广泛的研究。工业3.0的
“问题解决”通常被定义成一系列的有目的指向性的认知操作活动过程给学生提供自己发现事物的机会是问题解决教学的积极提倡者波利亚对“好教育”提出的重要评价指标。而随着
业务流程管理是企业管理和计算机领域的交叉学科,已成为近年来企业信息化关注的热点之一。业务流程管理对企业业务流程进行提炼,划分成多个活动,并建立相应的流程模型,将这些
随着今天高端计算机游戏以及动作电影视觉特效的广泛应用与普及,仅通过纹理贴图早已不能满足用户需求。然而,为三维模型制作逼真的表面外观,即在包含丰富的几何细节变化,如金属的
随着科技的发展及战争的需要,导弹武器系统中电子设备越来越多,越来越复杂。“十一五”期间,我国新型导弹武器系统的研究取得快速发展,弹上计算机的处理速度也得到大幅度提高。如
存储系统经历了单盘系统,磁盘阵列(Redundant.Arraysof Inexpensive Disks,RAID),开放系统的直连式存储(Direct-Attached Storage,DAS),网络附属存储(Network Attached Storage,NAS
自然语言处理的核心内容就是研究“怎样让计算机理解并自动生成自然语言”,作为语言理解第一步的自动句法分析一直是本领域的一大技术难关。而计算机进行自动句法分析,首先要
互联网,作为现代社会人们获取信息、学习知识、相互交流的载体,越来越成为人们日常生活中的必要组成部分。随着互联网应用的日益增加,如:个性定制、搜索引擎、社交网络、喜好推荐
学位