论文部分内容阅读
微博提供了一种新的信息传播方式。在微博上,人们可以通过最多140个字来快速自由地表达自己的感受、见闻或者意见。微博自从出现以来经历了巨大的发展,目前风靡全球的Twitter和国内流行的新浪微博都有着数以亿记的用户,每天产生出巨大数量的新内容。随着微博的发展,它已经成为人们获取信息的一种重要方式。微博中的信息与传统网页信息相比更加具有时效性,因为微博的内容大部分是对热门话题的报导或者讨论。“没有检索的信息是无用的”,对于微博中海量的数据,如何使用户快速有效的得到他想要的内容,是微博检索的主要目的。本文研究了微博文本检索的两个主要特点:(1)相关性。即检索结果应该与用户的查询尽可能的相关。(2)实时性。即用户希望得到尽可能新的结果。目前流行的商用搜索引擎都采用了一种简单的检索模型,即将包含所有查询词的微博按其创建时间排序。这种方法虽然考虑到了微博检索的两个特点,按创建时间排序的方法也保证了检索结果的实时性,但是这种方法过于“严格”的相关性判断标准会使得大量的相关文档被过滤掉。本文在语言模型的检索方法下整体考虑微博检索的相关性和实时性。语言模型方法主要包括两个部分:与查询相关的相关性模型和与查询无关的文档先验模型。本文使用了一种基于创建时间的文档先验模型来考虑微博检索的实时性,实验结果表明这种模型的引入可以使结果提高4%到5%。而对于相关性模型的选择,本文对比了古老的伯努利模型和目前占主导地位的多项式模型。虽然多项式模型在传统的文本检索中被认为是优于伯努利模型的,但最近伯努利模型在句子检索中的优秀表现显示了它在短文本检索中的有效性。考虑到微博的短文本特性,有必要对伯努利模型在微博检索的效果进行研究。实验结果表明伯努利模型在微博检索中的结果的准确率要高于多项式模型,而且伯努利模型对于平滑参数的改变也比多项式模型更加稳定。因此,在语言模型方法中结合了伯努利模型和基于微博创建时间的文档先验模型的检索方法有着最好的结果。除了对检索结果按相关性排序的方法之外,本文还研究了将检索结果按微博创建时间排序的方法。本文采用了一种利用语言模型的检索结果进行重排序的方法,并对重排序阈值的选择进行了重点研究,使用了一种基于文档得分分布的自动阈值选择方法。这种方法利用高斯分布对相关文档的得分进行建模,并用指数分布对不相关文档的得分进行建模,并在缺少相关性标注的情况下利用期望最大化算法(EM)对混合模型进行参数估计。实验结果表明这种自动阈值选择方法的结果要比人工设定固定阈值的方法至少高出9%,而且自动阈值选择的方法也避免了在没有任何启发信息的情况下手工设定阈值很难达到最优值的问题。本文的最后将语言模型方法和自动阈值选择方法结合起来与目前流行的微博检索方法(即将包含所有查询词的微博按其创建时间进行排序)进行了比较。这两种方法都能产生按微博创建时间排序的结果,但实验结果表明本文的方法的结果比后一种方法要高出78.3%。