基于列表级的相关文本排序学习算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lady408
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高用户检索的精度,将更加相关有效的页面返回给查询用户,如何提高搜索引擎排序的质量就显得至关重要。考虑对检索模型有影响的因素时,我们考虑到网页的重要度和相关度是两个重要的特征;但是只有重要度和相关度也不够,还要考虑其他的一些因素,比如网页之间相似性。随着搜索技术的发展和对搜索进行的研究,我们发现有太多的因素会影响到排序,把这些因素视作特征用一些方法综合考虑得出一个最合理的排序,这就是当今搜索引擎排序研究领域中引入机器学习的方法所要解决的问题,也即排序学习所要研究解决的问题。由于本课题是在网页上进行的排序研究,而网页是经过特殊格式化了的文本,所以我们的研究主要集中在对文本排序的研究之上。本课题介绍了现有的八种文本特征提取方法,提出了带有位置信息的TFIDF,并且结合全局信息熵,这样一个新的特征提取方法(WTE)。我们提出的特征提取方法由于结合了位置权重和信息熵,使得提取的特征词能够更好的代表一篇文本,又能最大限度的与其他文本相区分。重要的是,这个方法能最佳的表示词在文章中的重要度和相关性。同时,我们提出一种适用于列表级排序学习方法上的基准排序序列的构建方法,弥补了在列表级排序学习方法的研究上,基准序列不足的缺陷。本课题在建立排序模型的时候提出了结合文本内容与查询的相关性和文本之间的相似性关系应用在列表级排序学习模型上的排序方法。大多数的排序学习方法在建立排序模型的时候都只考虑了文本内容与查询的相关性,而忽略了文本之间的相似性关系对排序可能给予的贡献。为了解决这个问题,本课题将文本之间的相似性关系表示成了一个相似性图(AA),结合AA表示的文本之间的潜在关系以及文本本身内容与查询的关系构建排序模型,引入监督学习的方法优化排序模型。对于文本的相关度函数的构建不仅仅依赖于文本本身内容而且也依赖于文本之间的相似性关系,这是本文的研究重点。本课题在学习模型的构建上利用交叉熵和似然估计作为替代损失函数,利用增量型线性神经网络和梯度下降算法来最小化本文定义的损失函数。本课题实现并分析了在上述两种学习模型上传统的线性排序函数构建的排序模型和提出的排序函数构建得到的排序模型。实验结果表明,本课题提出的排序函数和模型在性能上都优于传统的排序方法。
其他文献
随着计算机性能的提高和网络技术的迅速发展,互联网日益呈现出复杂、异构等特点,当前的网络体系已经暴露出严重的不足,网络正面临着严峻的安全和服务质量(QoS)保证等重大挑战。
词汇的相关性研究是自然语言处理领域的一个基础课题。在传统的词语相关性研究中,大多关注一对词汇之间的相关性;并且大多都存在一个假设:即相关的词汇至少应该以“共同出现
面向服务的架构(Service-Oriented Architecture,SOA)是网络环境下的业务集成的一种软件系统架构,它具有良好的耦合性、服务复用性与平台无关性等特性,因此具有广泛的应用。
双目立体视觉是计算机视觉中的一个重要的研究领域,直接模拟人类双眼处理景物的方式,实现对三维信息的感知,即运用两个摄像机对同一景物从不同位置成像,进而从视差中恢复深度
用三维重建图像进行诊断是减少CT重复检查并提高临床诊断精度的重要手段。本文针对传统三维重建算法渲染时间过长及近年CT检查所致公众剂量负担过高的问题,研究基于GPU的低剂
步态识别致力于通过行走姿态识别个体。与其他生物特征(例如人脸、瞳孔、指纹等)相比其优势在于远距离获取、非接触性和难于伪装等方面,因此在智能监控和人体行为分析方面有
随着多核处理器架构的发展和普及,越来越多的硬件平台使用多核处理器作为处理单元。协议栈作为网络处理核心却没有达到与之匹配的效率。如何将协议栈中的重要模块针对多核处
近年来社交网络平台迅猛发展,人们的生活与社交网络息息相关,但受限于相对单一的表现形式,需要寻求更有趣更具体验性的应用来满足人们日益增长的需求。移动终端的硬件设施越
随着计算机和网络技术的迅速发展,数字内容在网络上的传播变得更加容易,盗版日益严重,如何保护数字版权已经成为一个亟待解决的难题。叛逆者追踪的研究对数字版权的保护以及
随着多媒体技术和互联网技术的迅猛发展,多媒体信息的数据量急剧膨胀。如何在海量数据中快速准确的检索已成为基于内容的音频信息检索技术所面临的重要挑战。目前,基于中央处