论文部分内容阅读
中国互联网络信息中心发布的第42次《中国互联网络发展状况统计报告》显示:截止2018年6月,中国微博用户规模已达3.37亿人,在整体网民数中微博用户数占比已达42.1%。巨大的用户数量使微博逐渐成为人们获取和分享信息的重要途径。为从庞大的微博数据中获取有效信息,微博检索已成为微博服务的重要组成部分。微博检索虽属文本检索范畴,但却不同于传统文本检索,两者的区别主要体现在排序原则和搜索数据两个方面。在排序原则方面,微博检索除要考虑查询与文档的内容相似度外,还应考虑其它因素,如时间、兴趣、博文质量等;在搜索数据方面,微博检索面向的是微博文档,其典型特点是长度较短、内容稀疏。结合微博检索的特点,本文在查询似然模型的基础上提出一个融合用户兴趣和混合估计的微博检索模型。新模型主要对传统查询似然模型中的文档先验概率和文档语言模型估计进行改进,具体工作体现在两个方面:(1)在文档先验概率方面,首先通过量化用户对微博的兴趣行为得到用户的兴趣博文库,然后通过计算用户兴趣博文库和微博之间的相似度对微博集中每条微博先验概率的计算进行改进,最终使符合用户兴趣的微博具有较高的先验概率,以在一定程度上满足用户的个性化检索需求。(2)在文档语言模型估计方面,首先基于微博的文本内容得到微博间内容相关度,然后通过量化微博所属用户间的交互行为得到用户间交互度,最后混合微博内容相关度和用户间交互度得到微博的相关文档集,并将其作为平滑项对微博文档语言模型进行估计,以在一定程度上缓解微博稀疏性对微博检索造成的影响。由于目前权威测试集难以满足实验需求,本文采用从新浪微博爬取的真实数据对研究内容的有效性进行验证。首先对爬取的661845条微博原始数据进行清洗和预处理,并依据规范测试集构建本文的测试集;然后对不同微博检索模型的检索性能进行比较。实验结果表明:与本文的阶段性工作相比,本文的总体工作在P@k和MRR两个指标上均较优;与当前主流的微博检索模型相比,本文提出的微博检索模型在P@k和MRR两个指标上均较优。