基于查询偏好的个性化搜索引擎的研究与实现

被引量 : 0次 | 上传用户:WPF0731
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,高速发展的因特网为用户的生活提供便捷的同时,也不可避免的出现让用户难以获得所需信息的烦恼。对此,搜索引擎的产生为用户查询信息的方式带来了极大改变。作为一种常用的网络信息检索方式,搜索引擎已经发展为每个用户上网都离不开的重要工具,它的出现得到人们的广泛关注和使用。然而,传统信息检索工具也存在诸多不足之处。主要因为传统搜索引擎采用关键词匹配的全文检索方法,缺乏有效的对用户本身个性化信息的挖掘,从而不能有针对性的为用户提供个性化查询服务。所以在考虑和分析不同用户的信息需求的基础上,个性化搜索系统应运而生,它的出现能够在一定程度上满足用户的个性化信息需求。本文借鉴了电子商务网站中广泛采用的信息推荐技术,提出了较为可行的个性化信息推荐方案,即在用户搜索中使用查询推荐技术,以实现个性化搜索推荐。相关研究表明,用户的查询点击历史反应了用户的搜索习惯和查询偏好,所以本文对用户的历史查询数据进行深入分析,提出了用户点击模型,预测用户查询相关性并最终给出推荐。文中的研究主要集中在查询推荐上,首先根据用户的搜索点击历史数据,使用朴素贝叶斯理论训练出一个用户点击模型,根据这个点击模型对用户当前提交的查询进行分析,预测查询与链接的点击率,然后根据反向点击图模型将预测的值分配给相应查询,据此对查询进行相关度排序,将前k个最高预测值的查询推荐给用户。其次,本文在单个用户历史数据的基础上,对其进行补充,提出协同相似计算的用户查询推荐技术,将具有相同搜索行为的用户数据汇集到目标用户。该方法可以解决目标用户数据量不足的情况,另外还可以为用户提供一定的查询推荐的扩展性和新颖性。在用户的相似计算中,将每个用户的历史查询日志整合为一篇文档,使用余弦向量模型计算文档间的相似性;再使用推荐系统中的协同推荐理论,将用户对每个链接的点击频率比作为相关偏好评分,基于这些点击评分,使用改进后的欧氏距离计算用户间的相似度;最后将两种相似计算方法采用线性加权的方式整合,计算出目标用户的相似用户集,最终将采用点击模型进行查询推荐。本文最后基于查询推荐的分析,实现了一个简易的个性化搜索引擎系统。在本系统中,将相关查询推荐算法引入到了系统中,并将用户点击模型应用到网页排序上,实现了个性化的查询推荐和网页排序功能。
其他文献
《舒曼钢琴作品全集》系列原版引进自德国亨乐出版社的权威版乐谱,以六卷本的形式呈现了这位知名诗人音乐家的所有钢琴独奏作品。本系列总共收录了三十八部作品,按作品编号升
东北亚合作并不是对欧洲、北美等区域一体化的简单回应和模仿,从“东亚奇迹”、“东亚模式”、“东亚危机”到“东北亚合作”,贯穿始终的主线是后发达地区经济发展模式的形成、
为了解决配电所远程实时监测中遇到的问题,进一步提高供电质量,设计了一种基于无线专网的实时监测管理系统,系统包括三大部分,分别是数据采集终端DTU、GPRS和GSM信道、监测中
《生死场》全书贯穿三个家庭生与死的故事,因此家庭描写是研究其文本不容忽视的方面。萧红着力刻划了家庭中夫妻关系的异化,通过若干女性在家庭中的遭际,包括家庭暴力、生育
本文研究了微分算子及其逆算子,并利用其性质进一步研究了高阶常系数线性微分方程的算子解法,给出了求其特解的计算公式,与待定系数法相比,极大的简化了其计算过程。最后,通
新世纪是以“创新”为根本特征的知识经济时代。这一时代呼唤具有创新意识和创新能力的全面发展的人。艺术教育作为培养全面发展的人的重要途径之一,在新世纪面临很大的机遇和
<正>震惊中外的西安事变,是中国革命由国内战争转向抗日战争的重大事件。在这场事变发生后不久,就有不少人发出的疑问:身为国民党"剿匪"副总司令的张学良,怎么会接受中共中央
本文对芥川龙之介的几篇脍炙人口的小说在表达人性的深度方面进行了系统的比较和划分,指出芥川对人性边界的探索经历了一个三阶段的上升过程,即从剥离人性的面具、显示面具对
目的:应用新型淋巴管内皮标记物D2-40分析甲状腺滤泡状癌及周围组织微淋巴管密度(MLVD)与淋巴结转移之间的关系。方法:应用免疫组织化学Envision法检测35例甲状腺滤泡状癌和2
行波启动元件是超高速保护和行波测距中必不可少的重要组成元件。在阐述数学形态学基本理论的基础上,提出将形态梯度应用于行波启动元件,以解决现有的行波启动元件算法在弱故