搜索语句的时间属性研究及其在检索排序中的应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:chunya88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息的爆炸式增长,使得信息检索系统成为用户查找信息的主要工具。如何使检索系统理解用户的搜索意图,找到符合用户要求的数据,将相关度高的检索结果排在前面推荐给用户,成为近年来的研究热点,而搜索语句的属性分析则是了解用户搜索意图的一个重要来源。本文对搜索语句中的时间属性及其对搜索的影响进行了研究。在本文中,我们构建了一个基于时间属性的检索系统,其中包括有搜索语句分类器,时间属性推荐器,以及排序模块三个功能模块。首先利用支持向量机技术,构建了一个搜索语句的分类器,用于判断用户输入的搜索语句是否含有潜在的时间属性,并分析了含有潜在时间属性的搜索语句的长度以及类别的分布情况。接着,通过对不同时间属性的搜索语句子集,建立各自的时间属性语言模型,构建了时间属性推荐器,通过比较搜索语句在各个时间属性语言模型中的生成概率,为那些被判断含有潜在时间属性的搜索语句推荐相应的时间属性。最后,设计构造了引入时间属性影响的搜索结果的排序模块,主要思路是检索关键词在不同时间属性中分布不均衡,因此检索关键词的重要性应该随着时间属性的变化而变化,在不同的时间属性条件下,给予不同的权重。针对本文设计的搜索语句分类器、时间属性推荐器、以及排序模块,分别构建了三个不同的实验。结果表明,考虑了时间属性的搜索结果能更好的满足用户的需求。
其他文献
随着遥感事业的蓬勃发展,卫星遥感图像受到人们越来越多的关注。高光谱图像作为卫星遥感图像的一个重要分支,其本身具有的高维数据蕴含了丰富的信息待我们深入挖掘。高光谱图像分类问题是现阶段遥感图像研究领域的一个热门问题,该问题涉及计算机图像学、数理统计学、矩阵论等多个学科理论。在高光谱图像分类领域,目前较为流行的分类方法是利用基于统计学习的机器学习分类算法(监督学习方法,无监督学习方法),通过建立分类模型
当前生物信息学中对模体的预测普遍使用聚类算法,而当前大多数模体预测工具及算法在预测顺势调控结合位点时具有一定的局限性,他们往往能有较准确的预测那些与背景序列(模体
多值逻辑是指一切逻辑值的取值数大于2的逻辑。多值逻辑的研究内容主要包括理论、电路与系统和应用三个方面。  多值逻辑函数结构理论包括完备性理论、函数表示理论以及单
在集成电路工艺技术发展的驱动下,异构多核处理器的性能在成倍的增加,但原来系统级的一些问题被引入到处理器内部,任务的调度分配就是问题之一。对于多核CPU,优化操作系统任
如今,镜头规划技术的研究及应用越来越多,本文设计并实现了一个基于知识的智能的镜头规划系统,并将其运用于三维虚拟场景的自动漫游。本文依次讲述镜头知识的表示方法、镜头
人脸识别一直是学术界和工业界的研究热点。尽管在过去几十年内,研究人员提出了一系列的人脸识别方法。但是由于姿态、表情、光照等外部因素的干扰,这些方法始终不能取得很好
随着信息时代的到来,网络技术己经广泛渗透到各个领域。它在向人们提供前所未有的便利通信的同时,也对信息的安全存储和传输提出了更高的要求。信息隐藏技术作为传统的加密技术
应用层组播(Application Layer Multicast, ALM)是组播通信的一种,是在终端系统实现的由单一或多点主机通过传统的单播连接向群组主机发送数据报的一种组播方式。因未改变传
半监督降维是近年来半监督学习领域的研究热点之一。当今流行的半监督降维方法可以分成三类:基于类别标号的方法、基于成对约束的方法和基于其他监督信息的方法。其中,成对约
目前,人脸识别技术已经被应用于我们的日常生活当中的某些领域,但是该技术在手机端身份验证和支付这些场景中的应用还没普及,一方面是由于人脸识别准确度面部姿势、光照、表