基于用户个性化的图书搜索引擎的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:liongliong541
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,互联网的图书资源迅速增加,予以读者丰富多样的选择。与此同时,如何在海量资源中快速准确地找到自己所需的图书,成为用户面临的主要问题。图书领域的垂直搜索引擎应运而生,现已得到广泛应用。然而,传统的图书搜索引擎存在着诸多问题,例如商业气息浓重、查询范围狭窄等,除此之外,更是没有充分考虑用户的个性需求,对于同一查询关键词,一律返回相同的搜索结果列表。因此,本文提出了基于用户个性化的图书搜索引擎的研究方案。首先,本文设定豆瓣读书为唯一数据来源,调用应用开发接口,设计主题网络爬虫,获取了足量的图书数据和用户数据。经过预先处理的真实数据,一方面用于建立词条丰富的索引库,另一方面用于个性化搜索算法的研究。协同标注系统中,用户可以自行定义标签管理资源。标签的灵活性和易用性,使其成为图书资源与用户兴趣产生联系的重要媒介,却也带来了一定的处理成本。为了降低噪声和简化计算,本文采用层次聚类算法,进行了标签聚类,使得用户的偏好更加集中,并且引用聚类结果,构建了相应的用户兴趣模型和文档主题模型。针对用户标签数据稀疏等问题,本文着重分析了用户共有的图书评分,改进了用户相似度计算模型,获取了相似用户推荐的图书标签,将其加入目标用户的兴趣集合,基于协同过滤的思想,发现了用户的潜在兴趣,扩展了用户的兴趣范围。然后,本文选择了检索结果二次排序的机制,将用户兴趣模型融入了传统搜索引擎Xapian,综合文档与用户查询的BM25相关性得分以及文档与用户兴趣的相似性得分,实现了个性化搜索算法。为了验证算法效果,本文展开了多组科学对比实验,从不同方面考察了个性化搜索算法的有效性。最终,借鉴搜索引擎的主流架构体系,本文完成了架构设计、详细设计、功能实现和软件测试的工作。用户登录进入系统,发送查询请求,可以检索自己感兴趣的图书,获得符合兴趣特征的个性化搜索结果。
其他文献
医疗保险作为健康的重要影响因素,其公平性受到了全社会,尤其是老年人的密切关注。目前,学术界对于医疗保险与健康的关系研究,从是否有影响,某一种医疗保险的健康效应评估,发
随着物联网、各种智慧社区、智慧校园等技术的不断发展,定位服务逐渐成为人们日常生活中不可或缺的一部分。在室外定位中,已经有成熟并且普适性很高的系统,如美国的GPS系统,中国的北斗系统等,而在室内定位领域也发展出了基于WIFI、蓝牙等设备的技术,但没有形成比较成熟的系统。而iBeacon设备作为基于蓝牙4.0协议的技术,功耗低且传播距离远,很契合室内定位的需要。本文对基于iBeacon的室内定位算法进
本文是一篇翻译报告,报告了笔者在翻译三毛的《哑奴》中所采用的翻译策略、遇到的难点以及解决方法。《哑奴》是一篇纪实性散文,主要讲述了三毛、荷西在撒哈拉沙漠中与一名聋
脑卒中是危害人类健康的重大疾病之一,具有较高的发病率、致死率和致残率。脑卒中的发病机制已经为人所知,并且针对不同发病机制的预防和治疗也逐渐成为临床研究的热点问题。
公共体育信息服务包含多方面、多层次内容,构建公共体育信息服务标准体系,对信息服务发展全过程进行全方位测量,有利于实现我国党的十九大以来对公共体育信息服务规范化管理
由于优异的抗高温蠕变强度和良好的焊接性能,P91钢现已被广泛应用于火力发电厂的主蒸汽管道等结构中。然而,在温度场和应力场的长期耦合作用下,P91钢不可避免地发生蠕变损伤,
酚酸类化感自毒物质是导致农作物连作障碍的重要诱因之一。枸杞作为多年生木本植物,连作障碍突出,成因复杂。为揭示酚酸类物质对枸杞的化感自毒作用,研究了22种常见酚酸对枸
目的:本课题组前期研究发现,金福安汤可以改善患者的血液流变学状态,从而对肺癌的发展和转移起到一定的抑制作用。进而通过体外实验和动物实验证实了金福安汤对于人肺腺癌细
通过对庆元县悬钩子属植物资源的调查研究,发现庆元县有悬钩子属植物27种,其中20种食药方面都有很重要的用途。有较大的开发利用潜力,如能有计划地加以开发利用,对当地经济发展将
灵石山国家森林公园以其茂密的森林,优美的风景,清新的空气和悠久的佛教文化而闻名遐迩,自古就是闽中沿海的著名风景胜地。灵石山国家森林公园凭借其丰富的动植物资源和绝美