论文部分内容阅读
为了提高用户检索的精度,将更加相关有效的页面返回给查询用户,如何提高搜索引擎排序的质量就显得至关重要。考虑对检索模型有影响的因素时,我们考虑到网页的重要度和相关度是两个重要的特征;但是只有重要度和相关度也不够,还要考虑其他的一些因素,比如网页之间相似性。随着搜索技术的发展和对搜索进行的研究,我们发现有太多的因素会影响到排序,把这些因素视作特征用一些方法综合考虑得出一个最合理的排序,这就是当今搜索引擎排序研究领域中引入机器学习的方法所要解决的问题,也即排序学习所要研究解决的问题。由于本课题是在网页上进行的排序研究,而网页是经过特殊格式化了的文本,所以我们的研究主要集中在对文本排序的研究之上。本课题介绍了现有的八种文本特征提取方法,提出了带有位置信息的TFIDF,并且结合全局信息熵,这样一个新的特征提取方法(WTE)。我们提出的特征提取方法由于结合了位置权重和信息熵,使得提取的特征词能够更好的代表一篇文本,又能最大限度的与其他文本相区分。重要的是,这个方法能最佳的表示词在文章中的重要度和相关性。同时,我们提出一种适用于列表级排序学习方法上的基准排序序列的构建方法,弥补了在列表级排序学习方法的研究上,基准序列不足的缺陷。本课题在建立排序模型的时候提出了结合文本内容与查询的相关性和文本之间的相似性关系应用在列表级排序学习模型上的排序方法。大多数的排序学习方法在建立排序模型的时候都只考虑了文本内容与查询的相关性,而忽略了文本之间的相似性关系对排序可能给予的贡献。为了解决这个问题,本课题将文本之间的相似性关系表示成了一个相似性图(AA),结合AA表示的文本之间的潜在关系以及文本本身内容与查询的关系构建排序模型,引入监督学习的方法优化排序模型。对于文本的相关度函数的构建不仅仅依赖于文本本身内容而且也依赖于文本之间的相似性关系,这是本文的研究重点。本课题在学习模型的构建上利用交叉熵和似然估计作为替代损失函数,利用增量型线性神经网络和梯度下降算法来最小化本文定义的损失函数。本课题实现并分析了在上述两种学习模型上传统的线性排序函数构建的排序模型和提出的排序函数构建得到的排序模型。实验结果表明,本课题提出的排序函数和模型在性能上都优于传统的排序方法。