论文部分内容阅读
随着Web2.0及其相关的典型应用Blog、Microblog、SNS、Wiki、RSS等的发展,用户成为信息制造和利用的中心,他们拥有了更多传递信息的渠道。这种发展和变化不仅带来了互联网产业的升级,也给传统的网络信息检索方式带来了巨大的挑战。特别是近几年来,以Twitter为代表的微博的日益普及,使得实时搜索成为目前信息检索领域中的焦点之一。 本文以微博搜索的排名算法为研究重点,主要包括以下几个方面的内容: 1.以Web2.0环境下网络信息检索为背景,分析了Web2.0模式下的互联网应用的特点,介绍了微博等新型社交网络的出现所带来的实时搜索需求,以及传统的基于搜索引擎的信息检索方法在微博搜索中面临的挑战; 2.以Twitter作为平台,研究了微博(Microblog)的社会网络方面的相关特征及其信息传播模式,总结出6种与微博作者的社会网络属性以及微博本身的特征相关的因素来衡量Twitter用户社会影响力,分别是:(1)用户发布的微博的数量(the number of total tweets a user posts);(2)关注者的数量(the number of totalfollowers a user has);(3)微博内容的长度(the length of a tweet a user posts);(4)微博中包含的链接(URL)数量(the number of URLs atweet contains);(5)微博中包含的转发(Retweet)数量(the number of retweets in a tweet);(6)微博中包含的提及他人(Mnetion)的数量(the number of mentions in a tweet)等。 3.根据上面总结的社会影响力因素,我们提出一些了针对Twitter搜索的排名算法。具体而言,我们首先介绍了与这6种影响力因素对应的排名方法,例如,TweetRank(TR),FollowerRank(FR),LengthRank(LR),URLRank(UR),RetweetRank(RT)和MentionRank(Melation)。同时,我们通过将其中几种社会影响力因素结合起来定义了一种综合排名算法,即多视角微博搜索排名算法MFR(Multi-FactorRank)。在此基础之上,我们采用了肯德尔(Kendall’sτ)相关分析来确定各种影响力因素的权值,提出了一种加权排名算法WMFR(WeightedMulti-FactorRank)。 4.利用数据集“Twitter Authority Based Search-User Preference JudgmentDataset”对以上提出的各种微博搜索排名算法的排名准确率(Ranking Accuracy)和Rank Order Difference(ROD)进行验证评估。 实验结果表明,本文提出的多视角微博搜索加权算法--WMFR,无论是准确率(Ranking Accuracy),还是排名顺序差异(Rank Order Difference,ROD),均优于其他的搜索排名算法,搜索质量得到了显著提高。 因此,本文提出的多视角微博搜索加权算法WMFR对于开发基于Twitter的个性化、智能化的实时搜索服务具有重要的借鉴意义。