搜索引擎查询理解及应用研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：zifeng20060819

【摘要】

：

正确理解用户查询的搜索意图可以提供更加准确、个性化的搜索服务，提高搜索引擎搜索结果质量，改善用户搜索体验。查询理解是目前信息检索领域重点研究问题之一。为了正确的理解

【作者】

：

程舒杨

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2013年期

【关键词】

：

搜索引擎查询理解查询纠错多意图挖掘查询聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

正确理解用户查询的搜索意图可以提供更加准确、个性化的搜索服务，提高搜索引擎搜索结果质量，改善用户搜索体验。查询理解是目前信息检索领域重点研究问题之一。为了正确的理解用户查询，查询纠错技术作为基本的查询理解技术一直被搜索引擎广泛应用，而查询多意图挖掘则进一步为搜索引擎对用户多种需求的深入理解提供了基础。本文从中文搜索引擎查询纠错和查询多意图挖掘两个方面进行了查询理解的相关研究，论文主要贡献包括:　　(1)提出了面向中文搜索引擎混合语言的查询纠错方法，可支持混合语言和多种错误类型，与商业搜索引擎对比准确率提升17.19％。由于中文搜索引擎的查询中包含汉字、英文、拼音、数字等多种语言形式，现有的查询纠错方法不能很好的解决查询的切分纠错问题和候选集分类问题。为了解决上述问题，针对中文搜索引擎中用户查询的混合语言特点，我们采用了面向混合语言的异构字符树词典和基于高频或高点击率用户查询日志构建的语言模型;在查询纠错的过程中，对用户的查询进行逐字编辑、同步切分和纠错尝试，利用状态之间的转移达到对查询进行切分和纠错的目的;最终基于多重特征候选集分类器对纠错结果候选集进行分类，仅输出符合判定条件的候选。基于某商业搜索引擎查询日志中随机采样的查询进行纠错实验的结果表明，面向中文搜索引擎混合语言的查询纠错方法的精确率达到了98.97％，正确率达到了87.78％，对比百度搜索引擎线上查询纠错，分别高0.26％和17.19％;召回率为65.29％，比百度搜索引擎线上查询纠错低4.13％，召回率略低的主要原因是实验获取的训练语料不足。上述实验结果充分证明了本方法的有效性。　　(2)提出了基于查询图信息的PLSI模型，和已有方法相比在多意图查询的相似性质量指标上有显著改进。现有方法没有有效的利用查询文本特征、点击行为和session信息来挖掘用户的搜索意图，故而获取的查询特征对于多意图查询不同意图下的相关查询区分度不足，对于多意图查询的相关查询聚类效果不佳。针对这一问题，该模型从查询文本特征、点击行为和session信息多个层次来模拟查询意图的产生和表现，并基于查询-单词共现现象和查询-查询共现现象构建模型，获取查询在不同意图上的概率分布。实验证明，利用基于查询图信息的PLSI模型获得的查询特征进行查询意图概率分布相似度计算的效果，远好于基于文本特征的cosine相似度计算方法和random-walk算法;其计算所得的相似度质量指标H(s)(Sim)，相比于PLSI模型学习所得的查询特征低25.12％，比LapPLSI模型学习所得的查询特征低34.65％。　　(3)提出并实现了基于查询意图概率分布的查询多意图挖掘方法和系统。在基于查询图信息的PLSI模型的基础上，本文提出了基于查询意图概率分布的查询多意图挖掘方法，并设计实现了基于查询意图概率分布的查询多意图挖掘系统，由相关查询获得及预处理模块、查询意图概率分布学习模块和聚类模块组成。该系统采用基于查询图信息的PLSI模型学习所得的查询特征，利用查询意图概率分布相似度计算方法计算查询之间的距离，进行多意图查询的相关查询的聚类，从而挖掘出多意图查询的不同搜索意图下的子群簇。实验结果表明，利用基于查询图信息的PLSI模型学习所得的查询特征进行k-means聚类或complete-link聚类时，其聚类结果的纯度和NMI值均高于PLSI模型和LapPLSI模型，验证了基于查询图信息的PLSI模型在查询多意图挖掘中的有效性和优越性。

其他文献

栅格数据空间分析中最短距离并行算法的研究

学位

基于一致性方法的传感网时间同步算法研究

学位

车载容迟网络中数据转发机制及保障技术研究

车载网络由道路上行驶的车辆利用车载短距离无线通信设备自组成网，提供安全预警、交通管理、商业和娱乐信息共享与发布等服务。由于城市规模较大，而车辆密度在大部分情况下相对

学位

中继节点交通信息洪泛路由车载容迟网络数据转发机制短距离无线通信

新闻视频主播帧检测技术研究

新闻视频是对国内外发生的重大事件及时全面的报道且承载大量信息的视频之一。其包含着大量重要的语义信息，而新闻主播作为新闻视频的重要标志，对其进行有效检测，可进行新闻故事

学位

新闻视频传播主播帧检测支持向量机级联分类舆情发现多特征融合

高速公路环境下车联网协助下载方法研究

随着车载无线通信技术的日趋成熟，在车内通过Wi-Fi方式接入互联网进行内容下载的需求正在日益提高。然而，由于汽车快速的大范围移动以及有限的AP通信范围，车辆行驶在两个AP之间

学位

车载无线通信车联网协助下载动态时槽局部最优选车策略优化

基于序列型的蛋白质折叠型识别研究

蛋白质结构决定蛋白质功能，而基于计算方法的蛋白质结构预测具有重要的现实意义。传统的蛋白质结构预测方法包括同源建模法、归范法和本初法。归范法的核心问题是识别蛋白质序

学位

蛋白质结构预测序列型折叠型识别聚类分析同源建模法网络服务器

32nm工艺下低功耗CAM的全定制设计与实现

CAM是一个根据输入内容寻址的存储器，其采用特定的比较电路可以在一个时钟周期内对一组数据进行并行查找，且查找方式与待比较的数据的项数无关。CAM的这一工作方式，使其在路由器

学位

内容寻址存储器旁路转换缓冲器低功耗设计高速并行查找匹配线结构

基于EIP的企业应用集成方法及系统实现

随着信息技术的不断发展和电子商务的逐渐成熟，企业越来越多地依赖信息系统来完成业务和业务管理。应用集成是企业信息化从无到有、逐步发展的必经步骤。应用集成在信息系统之

学位

企业应用集成集成逻辑建模业务逻辑接口业务流程模型验证Petri网

兼顾能耗与延迟优化的分布式路由算法研究

随着互联网的迅速发展，互联网所产生的巨大能耗不但成为制约网络发展的一大关键问题，而且是影响环境和社会发展的重要问题。传统网络遵循资源超额供给、冗余设计等设计原则，并没

学位

网络能耗延迟优化分布式路由绿色网络集中式策略

黑白视频的着色方法研究

学位

搜索引擎查询理解及应用研究

与本文相关的学术论文