基于搜索日志热度和命名实体的查询推荐

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:liguang1233000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着搜索引擎用户量大规模的增长,对于搜索引擎服务质量和性能提出了挑战。基于用户搜索行为过程中产生的大量搜索日志,相继展开了优化搜索引擎的多方向研究。其中,查询推荐是其研究的一个重要方向,查询推荐是根据用户已有的输入查询,由后台查询推荐系统自动构建多个与用户查询意图相关的查询串供用户自主选择。它是方便用户构建合适查询,提高搜索引擎执行效率的一种有效方法。结合查询串在查询日志中的热度信息和查询串中包含的各命名实体信息提出了一种基于查询热度和命名实体信息的有效查询推荐方法,查询串的热度信息有效反映了该查询串相关主题目前的流行度,查询串中出现的命名实体由于在相对短小的查询串中蕴含着大量的信息,它对于查询推荐串和输入串相关性有着重要的支持作用。查询推荐方法的研究从三个方面展开,具体研究的方法和内容如下:  首先,对查询日志中的各查询串热度进行了评估和分析。融合K-means聚类中心迭代优点和查询词向量长度信息的基础上,提出SKHC(类K-means层次聚类)方法,并以该方法对搜索日志聚类。然后,分析聚类后的查询用户数、查询频次、查询累计时间、查询数、统计量特征与热点查询的关系,提出了基于各类热度值进行热点查询内容评估的方法,同时融合了日热度值和倒排日志频率统计特征。通过对抽取出的结果进行统计分析,并和日志所在月份发生的热点事件进行相关性比较,发现四川地震和北京奥运月平均热度分别达到最高的0.89和0.81,证明了该方法的有效性。  其次,对查询串中的命名实体进行了识别。利用种子命名实体和模板匹配原则抽取候选命名实体并聚类,聚类后进行候选命名实体识别特征抽取,包括频次,不同模板数,模板权重特征。融合这些特征构造命名实体识别权重计算公式,并合理调整特征影响参数,提出了依据特征权重抽取命名实体的新方法。通过计算该方法抽取结果指标P@N值,并和其它方法抽取结果指标进行比较,表明了该方法的有效性。  最后,对查询热度信息和查询串中的命名实体如何融合应用于查询推荐进行了分析。融合查询串热度信息和命名实体提出了一种新的查询推荐方法,该方法在相似度计算上利用了识别出的命名实体,同时考虑了推荐串在全局日志中的热度,将它们作为推荐串权重计算的一维特征融入到推荐串权重评估公式中,提高了推荐词的总体质量。将推荐结果和BaseLine方法的推荐结果进行人工满意度评价,表明了该方法的有效性。
其他文献
随着计算机技术在视频方面应用的发展,让计算机理解视频内容成为现代计算机视觉技术研究的重点。视频场景分割是实现视频语义理解的第一步,也是实现视频数据高效浏览与索引的关
搜索技术是人工智能中的一个基本而重要的研究领域。人工智能所处理的信息通常是不确定的、模糊的、不完整的、海量的,因此一般不能明确地知道问题求解的途径,需要通过搜索求
随着计算机技术、移动通讯技术和互联网技术的迅速发展,计算方式也在不断地变化。而当今新兴的移动式计算环境不同于传统的分布式计算环境,有着鲜明的特点:移动性、网络通信的非
结合我国高等教育自学考试信息化管理的发展现状和自学考试毕业资格审核的特点,从简化毕业生资格审核的复杂度和降低管理人员工作强度的角度出发,研究和开发出一个能满足未来
近年来核心网带宽迅速增长,接入网的发展却很慢,“最后一公里”仍然是高速局域网和核心网之间的瓶颈。由于成本低廉、接入范围广、支持多种业务接入等优势,以太网无源光网络
报表作为一种信息组织和分析的手段,在企业级的信息管理过程中起着不可或缺的作用,内容和形式也呈现多样性。任何企业都需要制作一定数量和格式的报表。在当前的网络已经成为
企业信息化的投资已经成为当今企业管理的一个严峻问题。一方面,企业信息化规模的增大促使其逐渐成为提高企业价值和发展潜力、提高企业核心竞争能力的有效手段和途径。另一方
广域网下充斥着大量复杂的数据和大量复杂的用户访问行为。传统的网络文件系统一般采用中心化的文件系统服务器,可扩展性差,导致局部出现性能瓶颈。另一方面,广域网中存在大
在多媒体信息量飞速增长的今天,从包含有汉字信息的图片、视频等媒介中,进行汉字笔迹的自动识别,成为目前研究的热点。笔划提取是汉字笔迹识别的一个重要步骤。由于手写汉字
随着(电子商务)办公自动化系统在各大企事业单位的普及应用和发展,企业处理业务的传统模式正面临着极大的挑战。标准业务系统正是在这种情况下,根据质监局标准化的业务需求所