论文部分内容阅读
随着网络资源的快速膨胀,在基于关键词查询的信息检索系统中,同义词多义词、查询歧义现象越来越多,检索词的选择对查询效果的影响越来越高,而广大用户往往难以选择正确的检索词,造成多次尝试检索的低效率情况。因此,传统的基于关键词搜索的检索方式已经不能满足用户高效的查询需求。在这种情况下,检索提示技术应运而生,并且在学术研究和商业应用中取得了一定突破。
CALIS中国高等教育数字图书馆统一搜索服务平台拥有海量文献数据资源,检索提示技术可以帮助用户快速找到目标文献,实现高效的检索服务。本文将传统的检索提示技术做了改进,将该技术引入数字图书馆领域,并设计和实现了检索提示系统。
不同用户往往有不同的查询需求,因此,本文用户查询日志出发,设计了支持用户个性化的检索提示方法,使用户兴趣度高的主题的检索提示词排名提前,提高了系统的查准率。该方法以查询聚类向量的形式表示用户兴趣,首先对查询日志中的查询进行聚类,通过预先对被点击文档的词频矩阵做奇异值分解并聚类,改进了现有的基于相似点击文档的查询聚类方法;再通过查询聚类结果和用户查询日志学习用户兴趣。在用户输入查询串的过程中,根据用户兴趣选择提示词返回给用户。
本文考虑了图书馆元数据中不同字段的重要性,在计算词频的过程中对不同字段的词赋以不同的权重,使数字图书馆背景下词频矩阵的计算更加合理。
此外,文本引入查询新奇度概念,在检索提示词排序过程中,将近期热门的检索提示词排名提前,使提示结果更符合用户需求。而且,本文的检索提示系统支持用户模糊查询与拼音输入,降低用户输入错误,提高了检索提示的查全率。实验证明,相比传统的检索提示方法,本文方法可以有效提高检索词提示质量,使用户的检索更有效率,用户体验更加个性化。