基于语义分析和局部文档的查询扩展研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zsdown520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代信息技术和网络技术的不断发展,海量的知识信息被发布到互联网上并快速地增长,如何准确有效地从互联网上寻找到所需的信息成为了信息检索领域的研究热点。当前的信息检索系统中主要使用关键词匹配技术获取信息,而用户查询词与实际的检索意图之间通常存在一定的差异,这就导致不包含用户查询词但是与用户检索意图相关的文档无法被检索出,同时很多用户输入的查询词个数比较少并且仅仅只是关心检索系统返回的前面一些结果,这些问题都会对检索系统的性能产生影响。针对以上问题,基于语义分析和局部文档的查询扩展方法通过分析概念之间的语义相似度从外部语料集和局部文档中获取扩展词来对用户的初始查询进行扩展,有效地提升了检索系统的性能。该方法从外部语料集WordNet和维基百科中抽取出语义信息用于分析概念之间的语义相似度,当用户输入查询时,首先依据概念之间的语义相似度从WordNet、维基百科和局部文档中分别获取三个扩展词集合,然后依据扩展词与集合之间的关系对扩展词的权值进行重新分配并筛选出较好的扩展词与初始查询组成扩展查询,最后使用向量空间模型对扩展查询检索得到的文档集进行排序并返回给用户。该方法使用外部语料集中的语义信息分析概念之间的语义相似度获取扩展词并发挥了已得到广泛肯定的局部分析扩展方法的优势,在提高扩展词质量的同时弥补了基于局部分析以及基于外部语料集的查询扩展方法的不足。在国际文本检索会议的标准测试集上的实验结果表明,相比于原始查询以及仅使用维基百科的查询扩展方法,基于语义分析及局部文档的查询扩展方法能够有效地提升检索系统的性能,而且随着扩展词个数的增加,检索系统性能的提升效果也比较明显。
其他文献
在21世纪,公认的计算机发展的四项重大技术之一就是人机交互技术。人与计算机之间的交互方式逐渐开始适应人的行为习惯,从早期的以计算机为中心,逐步向以人为中心转移。手势作为
最近几年,伴随着高校校园网络技术和应用的快速发展,许多高校开始实施了办公自动化建设,并呈现出一定的发展趋势。据了解,不少高校都依照各自的需求及具备的软、硬件条件建立
云计算以便捷的按需服务的资源使用方式受到了各界的关注。云计算集群通过虚拟化技术将其上的资源提供给各个应用。但是云集群规模的增加以及应用的多样性都给云计算的资源管
随着近几年移动互联网的普及,电商行业飞速发展;平台入口流量增长迅猛,入驻服务商规模不断扩大。同时,很多ISV(independent software vendor,独立软件开发商)和品牌商的系统
与传统的分布式计算相比,移动计算系统具有一些固有特性,如移动主机存储空间小、能量低,无线网络带宽低以及无线连接易受干扰等。移动计算系统因为这些固有特性容易出现故障,如果
随着深度学习在图像识别领域的巨大成功,深度学习被应用到越来越多的领域,包括视频处理领域,文本处理领域以及音频处理领域。卷积神经网络是深度学习中非常重要的一类网络模
随着中国电信对CDMA网络的扩建和改善,移动通信基站管理业务也迅速发展,基站安全与维护管理的能力与效率制约了基站管理业务的发展,为了改善这种局面,使维护管理水平得到提升
射频识别技术(Radio Frequency Identification, RFID)是一种非接触式自动识别技术,它利用射频信号自动识别目标对象并获取相关数据。作为一种快速、实时、准确地采集与处理
图像分割是图像理解中的关键技术,同时也是经典难题,自20世纪70年代起一直得到人们的广泛研究。近年来,应用偏微分方程的图像分割方法凭借可以建立连续的数学模型、成熟的数学理
多尺度分析是一种较新的图像表示方法,它很好的弥补了小波变换在图像处理的缺陷,在图像处理中表现出良好的特性,Contourlet变换作为一种优秀的多尺度分析工具,具有多尺度、局部化