论文部分内容阅读
微博是通过某个社会媒体分享的不超过140个字符的短文本消息,比如Twitter或者新浪微博。微博能够吸引上亿用户的使用,是因为用户通过关注自己感兴趣的人可以获得实时的消息。经过近五年的快速发展,微博已经成为社会媒体的典型代表,更是人们不可或缺的重要实时信息来源。在本文,微博特指通过Twitter分享的微博。微博数据剧烈增长,从大量的微博信息中帮助用户更加准确地找到他们感兴趣的微博就成了微博检索的重要任务。由于微博文本短小,书写随意,噪声大,而且实时性强的特点,传统信息检索技术在海量微博检索中遇到巨大挑战。为了解决这一问题,本文针对微博检索任务的几个关键技术进行了研究。本文主要分成以下四个方面进行研究:1.基于热点时间的文档语言模型建模。在本章中,首先我们调研了两类典型的基于时间的语言模型,其基本假设是文档越新鲜,文档越重要。然后对微博真实查询的相关文档的时间分布进行了分析,证实了传统的假设并不总是成立的。最后对查询的热点时间进行了定义,并建立了基于热点时间的语言模型方法用于微博检索,并和传统方法进行了实验性对比。2.融入时间信息的查询建模。在本章中我们利用时间特性(实时性,时间变化)对用户查询进行扩展,提高检索精度。具体的讲,探索了三种查询扩展方法。一种是基于实时性的查询扩展,能够对实时性的查询提供候选词。第二种是针对相关文档时间分布波峰离查询时间点较远或者出现多波峰的情况,此方法获取原始查询和扩展查询的时间属性,基于这两个分布的最小KL-分散度选择好的扩展词。第三种方法利用对文档年龄进行高斯分布建模巧妙的将前两种查询扩展方法进行了融合,是一种自适应权重的有效方法。3.基于参考文档模型的微博文本检索。在本章中我们通过对微博短文本模型建模遇到的潜在困难进行分析的基础上,引入参考文档模型对微博文本进行扩展,提高微博文本的模型估计精度,探究了文档信息增益对检索性能的影响。进一步利用参考文档同时对查询和文档进行伪反馈。实验结果表明,对查询和文档同时进行伪反馈的性能是最好的,远远好于传统反馈方法。本文还发现利用微博文本中的URL链向的网页内容对提高微博的检索性能有很大贡献作用。4.基于排序学习模型的微博检索。在本章中我们采用了一种新的排序策略,在排序中不仅考虑了文本相似度,而且同时考虑了微博用户和微博独有的一些特征信息。因此采用了排序学习方法,融合多个特征,来产生更好的排序函数。进行了一系列实验,通过对单个特征的分析和尝试不同的特征子集选择方案,来获取能达最佳微博检索性能的特征子集。