基于用户点击行为的数字图书搜索系统研究与实现

来源 :浙江大学计算机科学与技术学院 浙江大学 | 被引量 : 0次 | 上传用户:lutiaotiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字图书馆(Digital Library)在世界很多国家受到了高度关注,并取得了迅猛发展,已经成为人们获取信息与知识的重要途径。数字图书搜索则是数字图书馆必须提供的支撑性服务,本论文针对数字图书搜索以及搜索结果排序问题做了深入研究与开发,以便读者能够在海量数字图书资源中快速发现他所需要的数字图书。传统数字图书搜索建立在关系型数据库之上,采用关键词的简单匹配来判别相关程度,不能反映图书的质量信息和受关注程度,缺乏有效的综合排序机制,不能综合利用多种排序依据。本文的主要工作如下:一、利用数字图书馆门户丰富用户使用日志数据,提出两个点击流上的随机行走算法:BookRank—基于访问关联图的图书评分算法,提供图书相关性排序功能;OueryCluster—基于查询-阅读行为的查询词聚类算法,利用读者对检索结果的隐式反馈信息,提供对查询词的聚类功能。二、抓取互联网上的图书评分相关数据,将其整合进我们的图书搜索排序系统中去作为搜索结果排序的一个重要依据。三、在查询词聚类的基础之上,实现一种多排序依据集成方法,针对每类查询词,综合利用从访问关联图得出的图书相关性排序、互联网上的图书评分以及文本相似度这三种信息源,形成最终的搜索结果排序。四、开发完成相应的数字图书搜索系统,部署在高等学校中英文数字图书合作计划(CADAL)的网站上,根据用户在实际使用中的反映,与传统数字图书搜索相比,新搜索系统的搜索结果排序更加合理。
其他文献
行人检测,即首先判断目标图片或者视频里面是否包含行人,如果包含行人,将行人在图片和视频中出现的位置用矩形框标定出来。行人检测和多目标检测已经成为当前计算机视觉研究
作为一种新的大规模感知数据收集方式,移动群智感知利用普通用户的智能手机的感知与计算能力,通过移动互联网进行协作,从而完成大规模的、复杂的感知任务。然而,智能手机的资
电力企业在信息化过程中基本上以业务部门为依据进行条块分割,缺乏整体规划,导致企业内应用系统之间不能有效地共享信息,更不能实现业务流程的协作和自动化。企业应用集成可
模板攻击是近年来兴起的一种新型旁路攻击方法,它借鉴了模式识别与机器学习中的有关技术,将密码设备信息泄漏的检测以及密钥相关中间值的攻击作为一种模式识别与分类问题予以
随着信息技术和网络技术的发展,各种应用服务的不断普及,用户每天需要登录到很多不同的应用。随着系统的增多,用户需要记忆的用户名和密码也随之增多。并且由于每个系统有自己的
随着移动通信技术的发展和移动终端性能的提高,移动通信网络提供流媒体服务已经成为可能。分析移动流媒体网络传输协议和H.264视频编码格式特点,参照802.11标准,提出移动流媒
随着Web技术的发展和J2EE平台的广泛采用,基于B/S的多层Web应用体系结构逐渐发展成熟,针对Java Web应用的每一层都开发出了许多框架。由于使用EJB2.x开发企业应用非常复杂,Ja
软件测试作为软件开发过程中的重要环节,是保证软件质量,提高软件可靠性的重要手段。由于计算机技术的不断发展,软件的规模和复杂度的不断提高,软件测试也渐渐成为一项耗费大
大规模的开放式在线课程(MOOC),是一个基于Web的网络课程平台。它整合优质学习资源,为众多的参与者提供一种有效、协同的学习方式。随着移动设备和无线网络的发展,MOOC被广泛
随着无线通信技术的大范围部署,无线频谱成为越来越紧缺的资源。现有的静态频谱管理机制导致了频谱资源在空间维度和时间维度上的低利用率。一方面频谱资源在空间维度和时间