基于关键词聚类与神经网络的网页排序学习算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:yjun198
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,搜索引擎已经成为互联网最重要的入口之一。在搜索引擎的组成部分中,网页排序是搜索引擎设计的核心问题,排序结果的准确性决定了搜索引擎的性能和用户体验。早期搜索引擎的网页排序模型虽然构造方法简单,但手动调参的局限性导致排序效果不够理想。对此,近年来一种新的学习方法-排序学习(learningtorank)越来越多地应用到搜索模型的构造上,以获得更精确的搜索结果。排序学习被广泛应用在文档检索和协同波领域,受到越来越多国内外学者的关注,成为机器学习领域的一个研究热点。  采用机器学习方法的网页排序学习算法主要分为基于Pointwise,Pairwise和Listwise三种类型。本文针对基于Pairwise方法的网页排序算法在查询词的语义模糊性,查询不平等性以及文档对之间没有优先关系等方面的不足,提出了基于查询词聚类与文档相关性等级区分优化的网页排序改进算法。首先通过特征值扩充查询词的含义,构建新的查询词向量空间,利用K-MEANS算法进行查询词的聚类;其次在查询词聚类的基础上,通过平等化每个查询,扩充训练集加大文档不同相关性等级间的区分度并减少不相关文档的噪声影响来提高排序算法结果的准确性。在公开数据集LETOR4.0(MQ2008)上进行实验,采取多个评价指标对神经网络模型优化结果进行衡量,并与基线进行对比。实验结果表明改进算法可以提高排序结果的准确率。  目前对于排序学习的研究主要是从排序算法本身进行优化,而对于特征的选择与重组的研究较少。然而从传统机器学习的研究方法中可知,特征选择及特征组合的方式对于分类等方法的性能有较大的影响。本文提出了基于训练结果模型的特征选择算法。对于每个训练样本中的特征空间,按照第一轮训练结果得到的最佳模型,取权重系数绝对值最高的前N个特征,重新构建训练样本进行训练。同样在公开数据集LETOR4.0(MQ2008)上进行了实验,针对特征子集不同大小的排序结果准确率进行对比。实验结果证明了经过特征重组与选择后的排序结果的准确率得到了进一步的提升。
其他文献
随着计算机图像处理技术的飞速发展,对物体三维信息的提取在工业、家用电器等各个领域中显得尤为重要。结合激光技术和光电子技术等多种技术的优点,光学三维测量技术达到了非接
随着互联网的迅速发展和信息化技术的深入,大量的软件破解和软件盗版行为使软件开发者的利益受到了严重侵害,如何有效的保护软件的核心算法和机密数据成为困扰软件开发商的重
学位
目前,随着网络攻击越来越猛烈,网络安全技术得到了人们广泛关注。入侵检测是一种提供主动防御攻击的技术,得到越来越多的关注。特别是近几年人工免疫系统的研究,应用到计算机
如今社会,人们不满足于仅仅播放多媒体信息,转向基于视频对象的访问、检索和操作,于是基于视频的运动分割技术成为了研究重点。运动分割是将视频中有着不同运动的物体分开,是
随着网络和应用软件技术的发展,SOA、SaaS、ESB等概念的提出,使得整个软件系统的设计模式、部署方式、运行环境以及维护方式都有了本质性的改变,同时也促进了软件体系架构及
互联网的飞速发展给人们的工作和生活带来了便利,然而网络安全事故频发,无疑给网络世界蒙上了一层阴影,一旦重要的私人信息在网络安全事故中被泄露的话,就有可能造成非常严重的后
数字签名技术作为一项极其重要的保密技术,在数据通信的真实性、完整性以及匿名性等方面都起到了十分重要的作用,已成为计算机网络中不可缺少的一项安全措施,在军事、金融以及商
随着1992年物流配送中心试点工作的展开,我国物流业得到了迅猛的发展。物流业在高速发展的同时,存在的问题与发展瓶颈也日益突显出来,其中过高的运作成本是行业发展所面临的最主
近年来,随着计算机图形学技术的飞速发展,大量的三维模型被应用于动画、电影、3D游戏和广告等领域中,大量开放的三维模型数据库也已经出现。如何快速低成本让用户准确查找目