一种在搜索日志中挖掘用户搜索意图并推荐相关搜索词的方法

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:nanti
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,用户需要面对的数据越来越多,要想从这海量的数据中有效地找到符合需求的数据,当前只能使用搜索引擎。然而实际上大多数用户面对搜索引擎返回的成千上万的结果,往往无从下手,其中存在着大量与用户搜索意图不相关的干扰结果。另外,传统搜索引擎的结果返回方式为一维线性列表,也降低了用户的查询效率。目前,对于提高用户搜索效率的研究越来越受到重视,许多学者从搜索结果文档或搜索日志入手提出各种各样提高搜索效率的方法。本文主要研究和探索如何基于现有搜索引擎资源提高用户的搜索效率,实现一种能弥补现有系统不足的方法。该方法从搜索日志入手,对搜索日志信息进行有效的处理和提取,得到相关的数据集。然后构造种子搜索词在数据集中提取满足不同层面搜索意图的候选词语,并提取有效特征数据进行训练,得到一个二分类模型。对于用户查询词,先用分类模型得到用于推荐的相关搜索词,再通过短文本相似度计算等方法合并相似文本。最后返回给用户不同意图的相关搜索词以及结构更加合理的搜索文档。实验表明,该方法能够提取出符合预期的相关搜索词,进而有效提升搜索效率。
其他文献
MapReduce是由Google提出的一个广为人知的编程框架,Hadoop开源实现了这一框架。因为MapReduce适合处理大规模数据,许多企业都采用其进行数据挖掘,数据存储等。MapReduce需要
随着融合网络技术的不断发展,新的业务和服务不断涌现,并呈现出多样化、个性化的发展趋势。与此同时,作为业务载体的终端设备也日益类型多样化、功能复杂化。如何对融合网络
BI PaaS平台是将云计算、平台即服务、商业智能技术的综合运用。它以云计算的强大并行计算和分布存储能力为支撑,将ETL,数据挖掘,OLAP,报表等各类BI能力进行云化,并以图形界
以Internet技术为代表的信息革命正在深刻地改变着我们身边的生活和世界,可以说,互联网的出现为世界的经济发展和社会进步起到了巨大的推动作用。但与此同时,互联网作为一个
下一代互联网IPv6协议克服了IPv4协议的许多缺陷,使其能够更好的适应互联网的发展要求。但是要使IPv6网络代替现有的IPv4网络还需要经历漫长的过渡发展阶段。为了实现IPv6网
随着计算机网络的不断快速发展和广泛应用,维护网络环境的安全已经变得越来越重要。而且由于当前IPv4地址资源不足,IPv4向IPv6过渡已经成为必然。IPv4技术已经成功的在Intern
Internet的一个重要功能是信息的交流和共享,而查询检索又是获取信息的主要方法.网络技术和Web的快速发展给设计开发有效的网络资源检索工具提出了更高的需求.在纵 观国内外
恶意软件从早期的简单病毒、蠕虫逐步进化发展成实现特定目的木马、Rootkit等高级形态,并在网络空间中肆意传播,对用户的计算机系统造成严重的危害。对“暗云”木马、“海莲花
在远程教育管理系统中,远程教育模式按单点或多点、非实时或实时、非交互或交互可分为八种模式.这八种模式的划分实质上就是目前移媒体技术中的CSCW(Computer Supported Coop
近年来,越来越广泛的海量小文件应用,对传统分布式文件系统提出了低延迟的挑战。由中国科学院计算技术研究所基于pNFS自主研发的客户端可写的元数据缓存系统,采用客户端缓存技术