搜索引擎中的查询扩展方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:bigboss555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,越来越多的人使用搜索引擎在因特网上查找信息。但是,目前的搜索引擎大多数还是基于关键词和倒排索引技术,这就不可避免地要面对自然语言自身存在的同义词、多义词问题,它们可能会导致用户查询词跟页面用词不一致。再者,用户的查询词一般比较短,这造成用户的查询信息严重不足。如上问题会使某些与查询相关的页面不能被搜索出来,即使被搜索出来,排列的位置也不靠前。  针对这些问题,学者们提出了查询扩展技术。它是已经被证实了的解决如“词不匹配”、短查询的有效方法。目前的查询扩展方法主要有:基于词典的查询扩展、基于全局分析的查询扩展、基于局部分析的查询扩展、局部上下文分析方法、基于日志的查询扩展。  本文针对局部上下文分析方法的缺陷,提出了基于日志分析的局部上下文分析方法,该方法把局部上下文分析方法应用到经过分析、过滤后的日志上,从而打破了原始局部上下文分析高度依赖于初次检索结果的局限性。  搜索引擎的个性化服务是研究的一个热点,它力求为每个用户提供不同的服务,希望提供给用户最关心的结果。目前,获取用户兴趣知识有两大类方法:人机交互和用户记录挖掘。在本文中,把两种方法相结合。在人机交互方面,让用户选择自己感兴趣的主题;在用户记录挖掘方面,通过JavaScript脚本语言在客户端生成并保存一个记录用户以往查询的文件,当用户产生新的查询时,从该文件中获得与本次查询相似的查询词。然后把根据用户兴趣获得的词加到初始查询中,实现个性化查询扩展。  本文在Lucene.net的基础上实现了可视化的全文搜索引擎,并实现了本文中提出的两种查询扩展方法,通过跟以往查询扩展方法进行对比,发现本文中提出的两种方法在搜索性能上有一定的提高,从而验证了本文中算法的有效性。
其他文献
随着网络信息技术的快速发展,一些传统制造企业在经济全球化的浪潮冲击下,把网格技术应用到制造生产的各个环节。制造网格就是网格技术在制造生产中的具体应用,它利用网格技
上下文被定义为“任何用于描述实体状态的信息”,实体可以是“任何在人机交互中相关的对象”,如人,地点等。目前,在智能手机为代表的可移动设备中,上下文信息的来源十分广泛,从内置
随着信息化社会科技的飞速发展,人们对可视化的需求也越来越高:影片中洪水、海浪、漩涡等精彩的视觉特效;宇宙飞船在太空中的飞行过程;大气运动形成的雨、雪、风等自然场景的仿
H.264是最新的国际视频编码标准,它是由ITU-TVCEG和ISO/IEC MPEG专家组联合开发的,具有比以往编码标准都高出很多的压缩性能,而且其解码器的复杂度增加也不是很大,所以提出以
随着计算通信和互联网技术的发展,多媒体数据通过网络得到广泛的传播。大范围的侵权行为引起了音像、影视和软件行业的高度关注。如何保护数字产品的版权及防止非法复制等,均
随着近些年来微电子系统技术(MEMS),无线通信技术,以及数字电子电路技术的快速发展,使得低成本,低功耗,多功能的具有短距离无线通信功能的微型传感器节点的设计与发展成为可
计算机的日益普及方便着越来越多的健康人,而对于那些严重瘫痪的残疾人由于不能使用肢体进行人机交互,导致了无法使用计算机甚至不能生活自理。于是,基于生物电的人机交互系
自动化单元测试采用符号执行与约束求解的技术,通过动态执行程序,收集执行路径上的分支选择上的约束信息,通过约束求解生成覆盖该路径的测试用例,继而执行新的测试用例搜集新
为了提高制造企业的核心竞争力,传统的制造企业纷纷在生产制造的各个环节中应用了信息化技术。制造网格是制造业信息化发展的一个新阶段,是在充分借鉴与吸收网格计算理论的基
随着信息技术的高速发展,特别是计算机网络技术的广泛应用,信息安全显得越来越重要,已经成为国内外计算机和网络应用领域普遍关注的热门研究课题。信息安全的核心技术之一是