基于查询日志的查询扩展算法研究与实现

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:nofeeling189
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,Internet上的信息也呈现爆炸式的增长;与此同时,网民数也在不断的增长,如何让用户在海量的信息中找到自己所需要的信息已成为信息检索领域一个非常重要的研究课题。一方面,中文查询词语的平均长度相比英文查询词更短,从而中文搜索引擎从用户获得的信息就更少;另一方面,中文中的同义词、多义词导致了查询中的词语和文档中词语之间的差异,使大多数基于关键词的中文搜索引擎的查询结果出现差错。因而,目前的很多中文搜索引擎不能很好地满足用户的需求。基于这些问题,查询扩展技术应运而生。本文提出了一种基于查询日志的局部共现查询扩展算法(LCQEBQL:Local Co-occu-rrence Based on Query Log),该算法首先在获取相关用户文档集合时,使用了改进的编辑距离向量算法和用户行为信息,使该集合相关性更高;其次,在对文档或相关查询词集合进行分词时,加入了命名实体库,避免了将命名实体词拆分成多个无意义的词语,使分词更精确;再者,在过滤相关用户文档集合时,同时考虑了三个方面的因素(空链接、导航页、文档和查询词集合的相似度),排除了不相关的用户文档,提高了算法的性能;然后,在计算用户文档词项与相关查询词集合中词项的相似度时,使用了局部共现的分析方法,同时考虑了查询日志中URL链接的权重和HTML文档结构的位置信息,提高了算法的性能;最后,在重新计算扩展词的权值时,加入了相关查询词信息,使得扩展词权值更精确。本文实验部分利用搜狗日志中的URL链接提取了1000篇不同领域的网页,过滤后保存作为实验的测试集,并设计了原型系统对本文的方法和其他的方法进行了实验评估。实验表明,LCQEBQL目比其他算法更有效,检索结果更相关。
其他文献
自SaaS(Software as a service,软件即服务)的概念提出以来,国内外涌现出大量基于SaaS模式的通用管理软件产品及其服务,并占据一定的中小企业市场。站在用户的角度来说,基于S
四足机器人因具有较高的动态性能和较强的环境适应能力而备受关注。作为一种强耦合非线性复杂动力学系统,四足机器人涉及学科知识多,模型结构复杂,尚有许多基础理论与关键技术有
随着计算机在国民经济和国防建设各个领域的广泛应用,作为信息系统智能载体的计算机软件的安全性变得尤为重要,软件安全漏洞已经成为信息安全风险的主要根源之一。由于软件安全
快速发展的网络技术和计算机性能已经能满足对海量图像的精细化处理的需求。这在基于图像的搜索引擎、视频识别、机器人等重要的应用中都有体现。在这些应用中,图像的匹配和
移动云计算利用云计算按需服务和可伸缩性的特点,解除智能终端CPU、内存、电量等资源的束缚。随之智能终端游戏、微博、地图、位置服务、搜索等应用日益普及,智能终端以其广泛
正则表达式匹配是网络内容分析与过滤系统中的核心关键技术。随着互联网技术的快速发展,新型网络应用和协议不断涌现,待检测数据量急遽增长,检测规则数量庞大且语法日益复杂,
作为金融市场的重要组成部分,股票交易市场在经济的发展过程中起到了非常大的作用。2015年以来,伴随着我国A股市场的起伏,投资者的行为也由一开始的热情转为更加理性的交易。
手机3D动画自动生成技术依托于陆汝钤院士提出的全过程计算机辅助动画自动生成技术,结合目前流行的3G乃至4G的移动通信技术,致力于改变传统手机短信单调、吸引力低的缺点。由
随着交通事业的快速发展,以商圈、交通枢纽为中心的人群聚集的公共场所越来越多。随之带来的安全隐含是政府和商家长期困扰的问题,及时获取准确的人群信息是解决这一问题的关键
三维重建是计算机视觉与计算机图形学领域一个重要的且富有挑战性的研究课题。此类技术致力于重建真实世界中的单个物体或者大规模场景,以期能在计算机环境下进行可视化的展示