基于大规模搜索日志挖掘的上下文感知搜索研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:liongliong570
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,搜索引擎已经成为Web用户主要的信息检索工具。但因为用户的查询词往往较短并且包含歧义,有效的理解用户的信息需求仍然是一个未解决的问题。上下文感知搜索技术是一种新颖的改进现有搜索技术的途径。这里的上下文特指查询会话上下文。这种技术基于一个普遍的现象:同一查询会话内的查询词和点击记录往往具有很强的关联关系。本文对于利用查询会话上下文来帮助理解用户信息需求的问题进行了系统的研究,其研究成果可以广泛用于改进各种搜索服务。首先,本文提出了一种新的上下文感知的查询建议方法。查询建议在改善搜索引擎可用性上扮演着重要角色。尽管近年来对查询建议的研究较多,但这些方法都不是上下文感知的。也就是说,它们都没有考虑把刚刚提交的一些查询词作为上下文。本文提出的方法包含两个步骤。在离线步骤中,为了解决数据系稀疏性的问题,通过查询词聚类,查询词被归纳为查询概念。接着,该方法从查询会话数据中建立一棵查询概念序列后缀树。这就是离线的查询建议模型。在在线步骤中,通过将查询词序列映射为查询概念序列,该方法可以捕获用户的查询上下文。通过在查询概念序列后缀树中寻找映射得到的查询概念序列,该方法提供给用户上下文感知的查询建议。本文在一个包含18亿查询词,26亿点击记录和8.4亿查询会话的大规模搜索引擎日志上测试了该方法。结果表明这种新方法在覆盖率和查询建议的质量上都好于两种基准方法。其次,本文提出了一种上下文感知的查询词分类方法。Web查询词分类目前已经被广泛研究。先前大多数算法只对单个的查询词进行分类而不考虑查询上下文。但是,由于查询词通常很短并有歧义,在不给定上下文信息的情况下,其真实搜索意图是不确定的。本文利用条件随机场(CRF)模型把上下文信息引入查询词分类问题当中。本文还在真实数据上作了全面的实验来验证此方法的效率和效果。实验结果显示此方法在F1评分下性能比现有的基准方法提高了52%。最后,本文提出了一种上下文感知的网页排序方法。网页排序是搜索引擎的核心技术之一。上下文感知的排序可能显著的改进网页排序。为了捕获查询上下文,本文从查询会话数据中学习出一个可变长度的隐马尔科夫模型。尽管该数学模型非常直观,而且涉及的算法均已被广泛研究,但在如此大规模的搜索日志数据上进行训练仍然带来了很多新的挑战。本文提出了一种可变长度隐马尔科夫模型的参数初始化方法,可以大大减少需要学习的参数数量。本文还在map-reduce分布式计算框架下提出了模型的分布式学习算法。该方法在一个真实搜索引擎上进行了实验。实验结果表明这种方法具有较好的效果和较高的效率。
其他文献
加强国防后备力量建设,要把重点放在确保民兵预备役部队听党指挥和提高其遂行任务能力上。确保民兵预备役部队听党指挥,一是要坚持党管武装原则不动摇。认真落实好地方党委议军
随着科技的发展,混凝土的施工技术也在不断提高.文章通过对混凝土中问题的分析,探讨了市政路桥工程中混凝土施工技术的应用.
2008年7月,受教育部师范司、体卫司委托,北京教育学院承担了西部国家级中学体育骨干教师培训项目,对来自12个省市和新疆生产建设兵团的600余名体育教师进行了集中培训。在项
4月初,'奔驰女车主坐车顶哭诉维权'的视频在网上疯传,奔驰品牌遭遇一场空前的舆论危机。以往,视频传播的主阵地是微博,而在奔驰事件的发酵过程中,抖音上各大媒体和网
4月29-5月2日,江西省星子县举办“天下第一泉”新世纪国际茶会,余赋诗多首,选抄如下: 出席“天下第一泉”新世 纪国际茶会开幕式感赋 4月29日下午,“天下第一泉”新世纪国际茶会在庐山桃花
在湖北民间器乐曲中,有一种序列结构的曲式。本文以在湖北省内流传地域较广的民间吹打乐《十样锦》及打击乐《花灯锣鼓》为例,分析了这种器乐曲的三种结构形式:即有旋律的序列结
目的探讨吉西他滨联合顺铂新辅助化疗对膀胱癌根治术患者预后的影响。方法选取2014年1月至2015年4月于我院行膀胱根治术的患者60例为研究对象,采用抽签法将其分为对照组和观
陕西省当前高校创新创业教育的实施已经取得了一定的成绩和效果,可在个人、学校和社会方面仍存在着一些问题:大学生对于创新创业的认知存在偏差,高校构建的创新创业教育模式
杜辉在《学术交流》2019年第6期撰文指出,财政涉农资金因长期分散使用与管理而备受诟病,导致资金整合的顶层探索与地方实践从未间断。自2013年起,国家在黑龙江省“两大平原”