基于企业搜索引擎重排序的研究与应用

来源 :武汉理工大学 | 被引量 : 2次 | 上传用户:heixue5555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于lucene搭建起来的企业搜索引擎,搜索出来的文档是根据查询词的相关度来进行排序。但如果将这个搜索引擎用到企业内部,这并不完全符合用户的需求,因为权限是企业的一个主要特点。用户在不同的系统中所属角色不一样,能看到的文档也不一样,对于不同的用户来说,搜索相同的查询词,可能想要的查询结果都不一样;长期搜索并点击过的文档,再次搜索时,点击过的文档能否排在前面;同一角色内的用户,搜索的查询词和点击过的文档对该角色下的其他用户是否有指导作用等;为了满足上述需求,在搜索的过程中,添加了影响搜索结果排序的评分因子。在得到搜索结果时,需要考虑查询词在文档中的位置,分析词在文档中的分布。在用户使用搜索系统的过程中并有了一定的搜索记录和点击记录时,定期的对用户的搜索行为进行离线分析。根据用户输入的查询词和点击情况,判断哪些搜索结果对该查询词和用户是相关的。评估搜索结果跟查询词的相关性是根据用户的点击情况,理想的情况下是用户点击过的文档都是与用户以及查询相关的。评分因子权重的计算采用的是ListNet算法,对样本集进行训练,得到每个评分因子的权重,对每个查询来说,只统计分析前100篇文档。当用户再次进行搜索时,在搜索的过程中,计算文档与查询词的相关度时,将评分因子和评分因子对应的权重进行加权平均求和,得到的分数作为文档与查询词的相关度,并通过堆排序对搜索出来的结果进行重新排序,将排序靠前的文档显示出来。根据用户的搜索和点击情况,发现这些评分因子对搜索结果是有用的,搜索出来的结果与查询词会更加相关,更加符合用户的需求;并采用分类过滤,缩小查询范围,使得搜索结果更加具体。通过分析发现,用户开始搜索时,词位置的权重较高,通过一段时间的使用,用户的点击行为以及所属的角色所占的权重相应提高。在搜索的过程中,对人名、地名的识别,以及新词的发现,使得搜索出来的结果更加准确。
其他文献
作为移动计算、移动商务和信息电器的核心技术,嵌入式数据库管理系统是最近几年才兴起的一项新的数据管理技术。嵌入式数据库以目前成熟的数据库技术作为基础,针对具体的嵌入
我国医疗卫生系统的建设已经进入信息化,数字化的时代。由于医院的各种信息系统是由不同的厂商孤立开发,数据格式不一致,且内部系统信息处理也不尽相同;另外患者在不同医院看病但
随着以太网技术的发展,以太网用于工业控制现场已经是大势所趋。EPA 标准正是在这种背景下,由我国自行研制的基于工业以太网的现场总线标准。随着EPA 标准的推广,基于功能块的 E
3GPP首先提出的IMS已经成为NGN研究的一个热点,并得到了包括ITU、ETSI TISPAN、3GPP2等标准组织的广泛认可接受。网络技术的巨大变化给构建新型网络的管理系统带来了挑战,IMS基
基于对象存储系统(OBS, Object-Based Storage System)利用存储设备的富余计算资源选用接口定义丰富的对象为接口,采用三方通讯,克服了块接口与文件接口的缺陷,能够构建高带
本文分别对VoIP、对等网络、穿越NAT以及Win32的编程技术进行研究,设计并完成了基于Win32的语音即时通讯系统。VoIP技术方面,在分析VoIP历史和基本处理流程的基础上,抓住影响
移动通信的发展日新月异,多个标准化组织和许多国家都对第三代移动通信(3rd Generation Mobile Communications,3G)标准和技术进行了大量的研究,3G网络也在日韩、欧美等地实现了
脑电波(EEG)是诊断大脑疾病,检测大脑功能和分析大脑活动的一个重要工具。电子计算机的出现为EEG分析技术提供了一些新的有效手段,但是由于EEG信号强烈的非平稳、非线性特性,传
随着互联网络的迅猛发展,人们对网络存储的需求越来越大。但是现有的文件系统在存储小文件时,存在浪费空间、性能低下等缺陷。它们已经不能很好地满足日益增长的集中而又分布
网络可视化方法能够帮助人们快速、直观地从大规模数据集中发现隐藏的知识和规律,并在实践中得到了广泛的应用。现有的网络可视化方法中,大多数可视化布局方法仅考虑网络中无向