融合用户兴趣和混合估计的微博检索模型研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:zdb_zhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国互联网络信息中心发布的第42次《中国互联网络发展状况统计报告》显示:截止2018年6月,中国微博用户规模已达3.37亿人,在整体网民数中微博用户数占比已达42.1%。巨大的用户数量使微博逐渐成为人们获取和分享信息的重要途径。为从庞大的微博数据中获取有效信息,微博检索已成为微博服务的重要组成部分。微博检索虽属文本检索范畴,但却不同于传统文本检索,两者的区别主要体现在排序原则和搜索数据两个方面。在排序原则方面,微博检索除要考虑查询与文档的内容相似度外,还应考虑其它因素,如时间、兴趣、博文质量等;在搜索数据方面,微博检索面向的是微博文档,其典型特点是长度较短、内容稀疏。结合微博检索的特点,本文在查询似然模型的基础上提出一个融合用户兴趣和混合估计的微博检索模型。新模型主要对传统查询似然模型中的文档先验概率和文档语言模型估计进行改进,具体工作体现在两个方面:(1)在文档先验概率方面,首先通过量化用户对微博的兴趣行为得到用户的兴趣博文库,然后通过计算用户兴趣博文库和微博之间的相似度对微博集中每条微博先验概率的计算进行改进,最终使符合用户兴趣的微博具有较高的先验概率,以在一定程度上满足用户的个性化检索需求。(2)在文档语言模型估计方面,首先基于微博的文本内容得到微博间内容相关度,然后通过量化微博所属用户间的交互行为得到用户间交互度,最后混合微博内容相关度和用户间交互度得到微博的相关文档集,并将其作为平滑项对微博文档语言模型进行估计,以在一定程度上缓解微博稀疏性对微博检索造成的影响。由于目前权威测试集难以满足实验需求,本文采用从新浪微博爬取的真实数据对研究内容的有效性进行验证。首先对爬取的661845条微博原始数据进行清洗和预处理,并依据规范测试集构建本文的测试集;然后对不同微博检索模型的检索性能进行比较。实验结果表明:与本文的阶段性工作相比,本文的总体工作在P@k和MRR两个指标上均较优;与当前主流的微博检索模型相比,本文提出的微博检索模型在P@k和MRR两个指标上均较优。
其他文献
从古至今,解题就作为数学课程学习非常重要的一个板块。学会解题也是中学数学的重要目标,而数学阅读理解题作为初中数学一种重要新题型,初中生在解此类题型存在诸多问题,并且
设计了一种空间布局合理、结构简单的电控液压悬挂系统,概述其结构组成、工作原理,并提出力位综合调节控制策略。该系统可以根据耕作情况,通过ECU实现悬挂的力和位置控制,同
在经济全球化的时代浪潮下,尽管世界各国在经济、法律制度等方面出现了趋同化的趋势,但是各国之间在历史背景、文化传统、意识形态、民族结构、经济发展水平等方面的差异仍然
偏头痛是一种发作性头颅血管舒缩异常、神经血管功能障碍所致的疾病。笔者采用针刺、放血、按时间开穴取穴治疗偏头痛36例,疗效满意,现报道如下。一般资料全部病例来自2003年
利用网络理论,对按比例分配原则作出了理论证明并将其推广,从而按用户实际使用线路的情况公平合理地收取费用和快速准确地确定各发电机与负荷对输电线路的实际使用程度有了理论
信息化教学的推进和变革是以教师对信息技术的认识为前提的。信息技术认识信念是对TPACK的认知,具体地,信息技术认识信念包括TK的信念(包括意识、态度、能力、方式、适应性),
集装箱运输的特点由于普通散件杂货运输长期以来存在着装卸及运输效率低、时间长,货损、货差严重,影响货运质量,货运手续繁杂,影响工作效率,因此对货主、船公司及港口的经济
干旱是对吉林省农业生产影响最大的气象灾害,干旱指数能够表征农业旱情,但不存在普遍适用的干旱指数,开展干旱指数在吉林省农业干旱评估中的适用性研究具有重要的现实意义.基
为提高节能水平,减小能耗,实现建筑行业的可持续发展,提高我国人民群众生活质量,就有必要对被动式节能技术进行研究。本文以某建筑工程为例,该建筑工程应用了典型的被动式节
(一)加强支付结算工具宣传,提高结算工具社会认知度。金融机构采取多种方式,加大支付结算工具和结算知识的宣传,通过广泛深入的宣传,增加社会公众对支付结算工具的了解,对各种