论文部分内容阅读
随着社交媒体和移动互联网的迅速发展,以微博为代表的短文本信息流的处理技术变得越来越重要。面对海量微博和众多用户多样性的信息需求,微博检索和微博过滤已经成为微博服务不可或缺的重要组成部分。近年来,微博的时间特性引起了研究者的注意。研究表明,微博的时间特性为微博检索性能的提高提出了一个新的解决途径,基于时间的检索技术逐渐成为微博检索的研究热点。本文关注利用时间特性来提升微博检索和微博过滤的性能,围绕查询建模、文档建模、查询与文档相关度计算以及过滤模型展开研究,力图利用微博的时间特性缓解短文本给基于内容的微博检索带来的困境,并利用历史微博的排序信息及时间特性,提高微博过滤的性能。本文研究的具体内容如下。(1)针对微博查询短的问题,提出了基于词语时间分布的查询模型。本文首先分析了扩展词与查询词在时间分布上的特点,在提出词语时间分布的定义和估计方法的基础上,给出了查询词与扩展词的时间分布相似性的度量,以此作为它们的相关度,完成扩展词的选择和查询模型的重估。本文方法利用时间信息而不是内容来扩展查询,避免了基于内容的查询扩展方法因微博内容短而无法准确估计扩展词的不足。(2)针对微博内容短的问题,提出了基于时间的微博文档模型。该模型尝试利用词在爆发期内微博上的分布以及词在时间近邻微博上的分布来估计扩展词的权重,并提出了基于机器学习的扩展词选择方法,据此构建文档扩展模型,并利用该文档扩展模型估计更准确的文档模型。为优化基于时间的文档模型的时间复杂度,本文提出了两个优化的时间文档模型,减轻了文档扩展带来的系统开销。(3)针对短文本给微博与查询的相关度计算带来的影响,将时间特性引入到微博检索中。使得微博检索在考虑内容相关度之外,还考虑了微博与查询在时间上存在的多种相关度,以使排序结果更符合相关微博的时间特性。具体而言,在经典语言模型检索框架下,给出了三种利用时间关系优化检索结果的方法;在排序学习框架下,提出了一种基于时间敏感的排序学习算法,设计了时间敏感损失函数,提高了微博检索的性能。(4)针对在微博实时过滤中传统分类模型过滤效果不佳的问题,提出了基于历史微博信息的微博实时过滤模型,有效地融合了检索模型和分类模型。具体而言,本文提出了基于历史微博的微博实时过滤模型的框架,将历史微博的排序信息以及时间近邻信息应用在检索模型中构建先验知识,并利用先验知识动态调整分类模型的分类面。进一步,以语言模型和逻辑回归模型为例,实现了该框架的一个实例,并给出了具体参数的估计方法。